Stage M2-Stage Ingénieur
il y a 2 jours
Contexte
Situé au cœur de la ville d'Angers et du Campus santé, le CHU d'Angers met en œuvre et exploite un entrepôt de données de santé. En charge de l'exploitation de cet entrepôt, le Centre de Données Cliniques (CDC) a pour objectifs de contribuer à l'amélioration des soins par l'analyse et la réutilisation des données médicales et leur mise à disposition des chercheurs cliniciens dans un cadre sécurisé et dans le respect de la réglementation. Le CDC intervient sur des projets de recherche régionaux et nationaux.
Le CDC propose deux stages pour des étudiants de M2 ou de 5ème année d'école d'ingénieur pour des filières orientées data science en santé
Sujet 1 – Détection du diabète, de l'hypertension et de la dyslipidémie dans un entrepôt de données de santé
Les entrepôts de données de santé sont des outils puissants pour la recherche dans le domaine de la santé. En effet, ils collectent et regroupent en continu des données de différent type issu de l'activité hospitalière :
- Données de codages des maladies et des actes médicaux (PMSI)
- Données de biologie
- Données d'administration de médicament
- Données textuelles de comptes rendus médicaux
Certaines étude nécessitent d'identifier les principales maladies à l'origine de pathologies cardiovasculaires : diabète, hypertension et dyslipidémie. Cependant, il est parfois complexe d'identifier les patients qui sont atteints de ces pathologies car ils ne sont pas forcément pris en charge spécifiquement pour celles-ci.
L'objectif du stage
est de développer un algorithme permettant de détecter la présence ou non de ces pathologies en croisant les données disponibles dans l'entrepôt :
- Développement d'un modèle prédictif du statut diabétique, hypertendu et dyslipidémique
- Création d'un indice de confiance de la détection de ces pathologies selon les sorties de l'algorithme
- Mise à disposition de l'algorithme aux centres du réseau de CHU grand ouest pour tester la validité externe de l'algorithme
Méthodologie proposée
Préparation des données
- Identification des données d'intérêts
- Définition d'un gold standard à partir de dossiers consolidés
- Traitement des documents par NLP pour identifier des concepts clés
Modélisation
- Modèles statistiques usuels et modèles par machine learning supervisés
Performance et confiance des modèles
- Calcul des performances des modèles (AUC, Se, Sp, VPP, VPN)
- Comparaison des modèles selon les performances et signification clinique
Intégration et validation
- Application du modèle dans un jeu de donnée de recherche
- Validation croisée sur les jeux de données d'autres entrepôts de données de santé du grand ouest.
Livrables attendus
- Jeux de données d'évaluation construits et archivés.
- Modèle prédictif validé du statut diabétique, hypertendu et dyslipidémique
Compétences mobilisées / à acquérir
- Traitement de données massives (ETL, SQL, Python).
- NLP et Machine Learning supervisé (transformers, embeddings, XGBoost, calibration).
- Méthodes d'explicabilité et détection d'incertitude.
- Gestion de la qualité des données (données manquantes, erreurs de métadonnées).
Bonnes pratiques de reproductibilité (Docker, Git, …).
Sujet 2 – Classification et correction des documents dans l'entrepôt de données de santé eHOP
L'entrepôt de données de santé eHOP collecte en continu des documents cliniques issus du Système Informatique Hospitalisé (SIH). Le flux fil de l'eau actuel permet de verser les documents en les associant à leurs codes LOINC (identifiant standardisé) lorsqu'ils sont disponibles. Cependant, une grande partie de l'historique déjà versé dans eHOP n'a pas été classée par code LOINC, ce qui limite les analyses secondaires et la réutilisation des données. Par ailleurs, certains documents comportent des métadonnées erronées (par ex. : Unité Fonctionnelle manquante ou incorrecte), ce qui complique l'exploitation.
Le stage vise à développer une approche permettant :
- De reclasser automatiquement les documents historiques à partir des connaissances acquises via le flux fil de l'eau.
- De corriger les métadonnées manquantes ou incohérentes (ex. UF), en combinant apprentissage supervisé et règles métier.
Objectifs du stage
- Classification automatique des documents historiques par code LOINC :
- Construire un modèle supervisé entraîné sur les documents du flux (annotés LOINC).
- Reclasser l'historique en tenant compte des incertitudes (acceptation automatique vs validation humaine).
- Garantir l'explicabilité et la traçabilité des décisions.
- Correction des métadonnées incohérentes (UF manquantes ou erronées) :
- Développer des modèles de prédiction des UF probables en se basant sur les informations disponibles (service d'origine, type de document, texte libre, signatures, etc.).
- Proposer un système semi-automatisé de correction, avec niveaux de confiance.
- Industrialisation : intégrer le pipeline dans l'écosystème eHOP pour permettre une mise à jour continue (backfill + flux).
Méthodologie proposée
Préparation des données
- Constitution d'un corpus d'entraînement à partir du flux étiqueté (codes LOINC connus).
- Identification des documents problématiques (UF manquantes/incohérentes, absence de code).
- Définition d'un jeu d'évaluation (gold standard) avec annotation ciblée.
Modélisation
- Approche supervisée : embeddings de texte (BERT clinique/FR, fastText) + métadonnées (type doc, service émetteur).
- Classification multi-étiquette pour prédire le code LOINC.
- Modèle secondaire pour la prédiction/correction d'UF, en combinant apprentissage automatique et règles métier.
Gestion de l'incertitude et explicabilité
- Calibration des probabilités (Platt scaling, temperature scaling).
- Mise en place d'un système de seuils de confiance pour valider/rejeter automatiquement une prédiction.
- Explication des prédictions (mots saillants, SHAP/LIME, similarités avec documents du flux).
Intégration et validation
- Application du modèle sur l'historique pour backfill LOINC + correction UF.
- Tableau de bord pour suivre les taux de succès, rejets et corrections.
- Mise en production progressive (tests sur un périmètre restreint puis extension).
Livrables attendus
- Pipeline complet (classification LOINC + correction UF) packagé et documenté.
- Jeux de données d'évaluation construits et archivés.
- Rapport de résultats : performances quantitatives (précision, rappel, F1, calibration, taux d'erreurs critiques……nouvelles métriques sur mesure).
- Prototype de tableau de bord (rejets/incertitudes, corrections proposées).
- Documentation technique et fonctionnelle (transfert vers l'équipe).
Compétences mobilisées / à acquérir
- Traitement de données massives (ETL, SQL, Python).
- NLP & Machine Learning supervisé (transformers, embeddings, XGBoost, calibration).
- Méthodes d'explicabilité et détection d'incertitude.
- Gestion de la qualité des données (données manquantes, erreurs de métadonnées).
- Bonnes pratiques de reproductibilité (Docker, Git, …).
Vous intégrerez une équipe jeune et dynamique
actuellement composée de 4 ingénieurs (2 ingénieurs data, 2 data scientist).
La Coordination Scientifique est assurée par un Professeur des Université en Biostatistique (PU-PH).
Un Médecin, Maitre de Conférence des Universités assure la coordination Médicale (MCU-PH)
L'équipe d'ingénieurs est encadrée par un ingénieur DRI/DSN chevronné et par le coordonnateur chargé des opérations.
L'équipe du CDC fait partie du réseau RiCDC des 5 CDC
du grand Ouest (Angers, Brest, Nantes, Rennes et Tours). Au sein de ce réseau des partages d'expériences et de connaissances techniques, scientifiques, et méthodologiques sont régulièrement organisés
Procédure de candidature
Les candidatures sont à envoyer uniquement par mail à
-
-
Stage Ingénieur Innovation et Recyclage H/F
il y a 2 semaines
Angers, Pays de la Loire, France Expliseat Temps pleinChez Expliseat, nous réinventons la façon de voyager. Depuis 2012, nos sièges d'avion ultralégers brevetés allègent les appareils, réduisent leur consommation de carburant et limitent leurs émissions de CO₂. Avec plus de sièges déjà en vol aux quatre coins du monde, nous sommes le leader des sièges ultralégers pour l'aviation régionale et...
-
Stage Service travaux
il y a 3 jours
Angers, Pays de la Loire, France Fiducial Temps pleinInformations générales Référence EGT-STANGERS Date de parution /01/2026 BrancheAutre Filière et MétierIMMOBILIER - Entretien et Maintenance Intitulé du posteStage Service travaux - Angers H/F Type de contratStage Durée du contrat 2 à 6 mois Temps de travailTemps complet StatutNon cadre Description de la missionVous êtes à la recherche d'un...
-
Offre de stage juridique 2026
il y a 2 semaines
Angers, Pays de la Loire, France France Nature Environnement Temps pleinFrance Nature Environnement Pays de la Loire, fédération régionale des associations de protection de la nature et de l'environnement en Pays de la Loire, recherche un(e) stagiaire juriste pour une durée de 6 mois à partir d'avril 2026. Le stage est basé à Angers (49).Profil StagiaireÉtudiant(e) en cursus Master 2 droit de l'EnvironnementCapacités...
-
Offre de stage Master 2
il y a 5 jours
Angers, Pays de la Loire, France Université Catholique de l'Ouest - UCO Temps pleinOffre de stage Master 2 : Médiation et communication scientifiques dans le cadre du projet Erasmus + STEM AdvocatesRéf ABG-134743Stage master 2 / IngénieurDurée 6 moisSalaire net mensuel 10/12/2025Université catholique de l'Ouest - UCOLieu de travailAngers Pays de la Loire FranceChamps scientifiquesCommunication, information, media, cultureMots...
-
Stage Ressources Humaines
il y a 2 semaines
Angers, Pays de la Loire, France THALA'CLUB Temps pleinÀ propos du posteNous recherchons un ou une stagiaire en Ressources Humaines. En tant que stagiaire, vous aurez l'opportunité d'acquérir une expérience concrète dans la gestion des talents, le recrutement, la gestion administrative du personnel et le développement des compétences. Vous participerez activement à un projet RH, tout en découvrant les...
-
Stage Promoteur des ventes H/F
il y a 5 jours
Angers, Pays de la Loire, France FREIXENET GRATIEN Temps pleinSTAGE PROMOTEUR DES VENTES (H/F)Angers (49)Stage de 4 mois entre avril et août 2026Secteur : Vins effervescents Rejoins l'aventure Freixenet Gratien Filiale française du groupe Henkell Freixenet, n°1 mondial des vins effervescents, Freixenet Gratien est un acteur incontournable du rayon bulles en grande distribution en France. Nous distribuons les marques...
-
Stage Charge De Recrutement H/F H/F
il y a 5 jours
Angers, Pays de la Loire, France The Adecco Group Temps pleinInformations générales Entité de rattachement Vous donner envie de nous rejoindre sans vous vendre du rêve ?Adecco Medical, c'estTravailler dans un grand groupe mais faire aussi partie d'une entreprise à taille humaine et proche de ses collaborateursÊtre le leader européen des services de Ressources Humaines dans le secteur de la santéPartager une...
-
Stage : Prévention des Risques SST (H/F) – Rédaction des DUERP
il y a 2 semaines
Angers, Pays de la Loire, France Chambre d'agriculture du Cantal Temps pleinÀ propos de nousLa Chambre d'agriculture de région Pays de la Loire c'est : 800 salariés, 30 antennes de proximité, des experts, des chargés de missions, des chargés de projets territoriaux. Une palette de compétences, des équipes projet, une dynamique collective au service des agriculteurs et des collectivités.Tu veux donner du sens à ton stage...
-
Stage Charge De Recrutement H/F H/F
il y a 2 semaines
Angers, Pays de la Loire, France The Adecco Group Temps pleinInformations générales Entité de rattachement Vous donner envie de nous rejoindre sans vous vendre du rêve ?Adecco Medical, c'estTravailler dans un grand groupe mais faire aussi partie d'une entreprise à taille humaine et proche de ses collaborateursÊtre le leader européen des services de Ressources Humaines dans le secteur de la santéPartager une...
-
Ingénieur
il y a 7 jours
Angers, Pays de la Loire, France CHU d'Angers Temps pleinContexteSitué au cœur de la ville d'Angers et du Campus santé, le CHU d'Angers met en œuvre et exploite un entrepôt de données de santé. En charge de l'exploitation de cet entrepôt, le CDC a pour objectifs de contribuer à l'amélioration des soins par l'analyse et la réutilisation des données médicales et leur mise à disposition des chercheurs...