Alternance (Bac +5) - Data Science

il y a 5 jours


SaintHerblain, France INSTITUT CANCEROLOGIE DE L'OUEST Temps plein

L’Institut de Cancérologie de l’Ouest (ICO) est un établissement de santé privé d’intérêt collectif qui assure des missions de prévention, de soin, de recherche et d’enseignement. Afin de développer son activité de recherche sur données de vie réelles, l’ICO développe son propre Entrepôt de Données de Santé (EDS). L’objectif est d’utiliser les différentes sources de données existantes à l’ICO dans le cadre de la recherche ou du soin afin de créer une unique base de données structurées contenant les variables considérées comme les plus importantes pour mener des travaux de recherche sur données observationnelles.

Aujourd’hui l’EDS est alimenté à partir des bases de données structurées disponibles à l’ICO et des travaux sont en cours dans le but d’extraire des données structurées à partir des documents des patients (comptes rendus de consultation, comptes rendus d’anatomopathologie, etc.). Depuis quelques années, de nombreuses études ont montré qu’il est possible d’extraire des données structurées à partir des comptes rendus en utilisant le NLP (Natural Language Processing) mais toutes ces études reposent sur une méthode nécessitant une longue et coûteuse phase d’annotation afin d’entrainer le modèle (1-6). A l’ICO nous avons réalisé un premier travail montrant les capacités d’un algorithme basé sur le Large Language Model (LLM) Mistral Large à extraire les données de 3 biomarqueurs du cancer du sein à partir des comptes-rendus d’anatomopathologie. L’alternance consistera à poursuivre les développements de cet algorithme afin extraire d’autres données structurées à partir des comptes-rendus médicaux des patients.

MISSIONS

Poste rattaché au Service Data Factory & Analytics (Direction Développement et Innovation).

L'objectif principal est de poursuivre le développement de l’algorithme permettant d'automatiser le processus d'extraction d'informations pertinentes à partir de documents médicaux non structurés et d’évaluer les performances de cette solution.

Tâches principales:

- Compréhension des données médicales : familiarisation avec les différents types de comptes rendus médicaux. Analyse des spécificités linguistiques et des structures de ces documents.
- Développement du pipeline d'extraction : compréhension, maitrise et extension du pipeline automatisé utilisant Mistral AI pour extraire les variables d’intérêts à partir des documents médicaux, et permettant d’alimenter une base de données structurée.
- Évaluation de la performance de la solution en termes de précision, de rappel et de F1-score en utilisant une base de données manuellement saisie comme Gold Standard.
- Identification des opportunités d'amélioration et itération du modèle pour une extraction plus performante (RAG, fine tuning, nouveaux modèles, CoT, etc.).
- Adaptation du process pour extraire différentes variables.

Cette alternance offre une opportunité unique d'acquérir des compétences pratiques en data science appliquée à la santé, tout en contribuant au développement d'une solution innovante essentielle pour exploiter des données médicales non structurées. L’alternant travaillera en étroite collaboration avec une équipe multidisciplinaire composée de spécialistes en biostatistique et en oncologie.

Références:
1. Schiappa R, Contu S, Culie D, Thamphya B, Chateau Y, Gal J, et al. RUBY: Natural Language Processing of French Electronic Medical Records for Breast Cancer Research. JCO Clin Cancer Inform. 2022 Jul;6:e2100199.

2. Savova GK, Ogren PV, Duffy PH, Buntrock JD, Chute CG. Mayo clinic NLP system for patient smoking status identification. J Am Med Inform Assoc JAMIA. 2008;15(1):25-8.

3. Holmes B, Chitale D, Loving J, Tran M, Subramanian V, Berry A, et al. Customizable Natural Language Processing Biomarker Extraction Tool. JCO Clin Cancer Inform. 2021 Aug;5:833-41.

4. Hanauer DA, Barnholtz-Sloan JS, Beno MF, Del Fiol G, Durbin EB, Gologorskaya O, et al. Electronic Medical Record Search Engine (EMERSE): An Information Retrieval Tool for Supporting Cancer Research. JCO Clin Cancer Inform. 2020 May;4:454-63.

5. Carrell DS, Halgrim S, Tran DT, Buist DSM, Chubak J, Chapman WW, et al. Using natural language processing to improve efficiency of manual chart abstraction in research: the case of breast cancer recurrence. Am J Epidemiol. 2014 Mar 15;179(6):749-58.

6. Banerjee I, Bozkurt S, Caswell-Jin JL, Kurian AW, Rubin DL. Natural Language Processing Approaches to Detect the Timeline of Metastatic Recurrence of Breast Cancer. JCO Clin Cancer Inform. 2019 Oct;3:1-12.

PROFIL ATTENDU

Lieu de stage : Institut de Cancérologie de l'Ouest (ICO) - Site de Nantes - Bd Professeur Jacques Monod, 44800 Saint-Herblain

Encadrant : Florent Le Borgne, Data Analyst - Statisticien

Date de début : à partir de septembre 2025

Durée : un an

Type d'emploi : Alternance

Lieu du poste : En présentiel

Date de début prévue : 01/09/2025



  • Saint-Herblain, France INSTITUT CANCEROLOGIE DE L'OUEST Temps plein

    L’Institut de Cancérologie de l’Ouest (ICO) est un établissement de santé privé d’intérêt collectif qui assure des missions de prévention, de soin, de recherche et d’enseignement. L’ICO participe au projet OncoDS (Onco Data Share) qui vise à créer un réseau d’entrepôts de données de santé en s’appuyant sur la mise en réseau de 12...


  • Saint-Herblain, Pays de la Loire, France BioFortis Temps plein

    STAGE EN DATA SCIENCEOutils d'automatisation et d'IA appliqués à la veille et à la rédaction scientifiqueL'entrepriseBiofortis SAS est une société de services en recherche clinique ou CRO (Contract Research Organization) dédiée à l'innovation dans les secteurs agroalimentaire, nutrition, santé, cosmétique et pharmaceutique. Biofortis accompagne le...

  • Data Scientist

    il y a 2 jours


    Saint-Malo, France Roullier Temps plein

    Description de l'entreprise: Groupe industriel, familial et indépendant, le Groupe Roullier réalise, grâce à ses 10 400 collaborateurs dont 74 % à l’international, 3 milliards d’euros de chiffre d’affaires consolidé. Ses activités diversifiées (nutrition des sols, des plantes, des animaux, agroalimentaire), centrées sur les besoins humains,...

  • Alternance Data analyst F/H

    il y a 3 semaines


    Seine-Saint-Denis, France iscod alternance Temps plein

    Description : L’ISCOD, spécialiste de la formation en Digital Learning, recherche pour une plateforme de livraison internationale, un assistant Data analyst F/H sur Pantin en contrat d'apprentissage, pour préparer l’une de nos formations diplômantes reconnues par l'Etat de niveau 5 à niveau 7 (Bac+2, Bachelor/Bac+3 ou Mastère/Bac+5). Choisissez...

  • Data Analyste en Alternance

    il y a 1 semaine


    Saint-Étienne, France CAF DE LA LOIRE Temps plein

    **Data Analyste en alternance (H/F)**: - Contrat d'apprentissage (alternance) - Saint-Etienne - NIVEAU 3 - Télétravail possible - NVHADD111869 **CAF DE LA LOIRE**: Dans le cadre du développement de nos activités autour de la donnée, la CAF de la Loire propose une alternance au sein du **service Pilotage et Budget**, avec un **fort ancrage métier**....

  • Data Scientist IA

    il y a 1 semaine


    Saint-Herblain, France RCA REALISATIONS POUR LA COMPTABILITE ET Temps plein

    Un éditeur de logiciels innovant basé à Saint-Herblain recherche un Data Scientist pour rejoindre son équipe. Vous serez impliqué dans la conception de solutions data et IA, avec un rôle central dans l'industrialisation et l'optimisation des processus. Ce poste en CDI permet jusqu'à 3 jours de télétravail et exige une expérience solide en Data...

  • Alternance Data Analyst

    il y a 7 jours


    Saint-Ouen, France ISCOD Temps plein

    **Description**: L’ISCOD, spécialiste de la formation en Digital Learning, recrute pour l’un de ses partenaires, grand acteur international du secteur des biens de consommation, un(e) Data Analyst en alternance. Le poste est basé à Saint-Ouen et s’inscrit dans une démarche de transformation digitale, d’optimisation des processus et de...


  • Saint-Herblain, Loire-Atlantique, France MBway Nantes Temps plein

    Une entreprise en plein développement, spécialisée dans le secteur du digital.Basée à Nantes, nous accompagnons des professionnels de tous secteurs dans l'amélioration de leur présence en ligne. Notre structure combine dynamisme, ambition et efficacité commerciale. Nous avons mis en place une organisation claire, des outils internes performants, et...


  • Saint-Denis, France GRDF Temps plein

    STAGE - Analyste de données SI - Bac+4/5 (Data Analyst / Big Data) F/H **Référence de l’offre**:55478 **Site de l’emploi (court)**:Saint Denis, France, 93210 **Intitulé**: Stage Analyste de données SI **Contexte**: **Description du stage**: Au sein de l’équipe MADT, l’objectif du stage sera de mettre en place des tableaux d’indicateurs de...

  • Data Analyst

    il y a 1 semaine


    Saint-Herblain, France RCA Temps plein

    Description de l'entreprise Editeur de logiciels 100% indépendant, basé en périphérie de Nantes, RCA développe deux gammes de logiciels : Une gamme de 13 modules à destination des cabinets d’expertise comptable et une plateforme digitale collaborative en mode SaaS destinée aux experts-comptables ainsi qu’à leurs clients (TPE / PME). Depuis 15...