Stage Reconnaissance Vocale Et Transcription Du Langage Des Métiers Du Nucléaire

il y a 2 semaines


Palaiseau, France EDF Temps plein

Mise en ligne le 14/02/2025

Principales caractéristiques de l'offre d'emploi
- Type de contrat:

- Stage
- Niveau de formation:

- BAC +4 / BAC +5
- Spécialité(s):

- Informatique / Système d'informations
- Pays / Région:

- France / Ile-de-France
- Département:

- Essonne (91)
- Ville:

- PALAISEAU
- EDF est labellisé Happy Trainees

**Description de l'offre**:
**Contexte**

La R&D d’EDF (1800 chercheurs) a pour missions principales de contribuer à l'amélioration de la performance des unités opérationnelles du groupe EDF, d'identifier et de préparer les relais de croissance à moyen et long terme. Dans ce cadre, au sein du Département PERICLES (PErformance et prévention des Risques Industriels du parC par la simuLation et les EtudeS), le groupe ARTEMIS (Acquisition, Réalité virtuelle et augmentée, Traitement et Exploitation des Maquettes, Intelligence artificielle et Simulation) a deux principales missions:

- D’une part, il propose des innovations numériques au service de la performance des moyens de production, et tout particulièrement du parc nucléaire ;
- D’autre part, le groupe fournit des outils et des méthodes pour aider les ingénieurs d’études, à la R&D et dans les unités dédiées, sur l’ensemble des étapes de la simulation numérique.

Dans le cadre de travaux exploratoires sur les usages de l’intelligence artificielle, EDF souhaite évaluer les capacités de modèles à l’état de l’art dans le domaine de la reconnaissance automatique de la parole (ASR).
- Transcrire de longs enregistrements vocaux (entretiens, simulations en salle de commande, débriefings, etc) captés pour les besoins des études du groupe Facteurs Organisationnels et Humains d’EDF R&D.
- Concevoir nouvelles interfaces vocales pour les intervenants de l’exploitation et de la maintenance des centrales nucléaires (rondes, relevés, aide à la relève, etc.).

La principale difficulté rencontrée par les systèmes de reconnaissance vocale est la capacité à reconnaître correctement un vocabulaire technique et spécifique. Le vocabulaire du domaine nucléaire contient notamment des acronymes et identifiants de matériel. L’objectif de ce projet est d’adapter un modèle récent comme WhisperX afin qu’il reconnaisse ce langage.

**Profil souhaité**:
**Objectifs du stage**

L’objectif de ce stage est de fine-tuner WhisperX pour apprendre à retranscrire des enregistrements vocaux contenant beaucoup de vocabulaire lié aux métiers du nucléaire, et d’évaluer l’apport de ce fine-tuning en comparant les performances avant et après fine-tuning (voire éventuellement avec d’autres modèles).
Pour cela, EDF dispose:

- D’un moteur de reconnaissance vocale multilocuteur « Chicago » déployé sur son infrastructure, utilisant WhisperX pour la retranscription (audio en texte) et Pyannote pour la diarization (distinction des différents interlocuteurs) ;
- D’enregistrements vocaux de sessions de simulation en salles de commande, de débriefs, d’entretiens ainsi que d’une plateforme de recueil ;
- De moyens de calcul performants (PC de développement en laboratoire, super-calculateurs) permettant de réaliser un fine-tuning ;
- De résultats de travaux préliminaires utilisant les modèles Wave2Vec 2.0 et Whisper.

Les actions à réaliser au cours de ce stage incluent:

- Fine-tuner WhisperX en utilisant des échantillons audios et textes recueillis par EDF ;
- Mettre au point une méthode et des métriques d’évaluation de la qualité des résultats de la retranscription.

En fonction de l’avancement, le ou la stagiaire pourra également réaliser les actions suivantes:

- Evaluer la possibilité d’entraîner un LLM et de l’utiliser pour améliorer les transcriptions produites par WhisperX ;
- Faire une veille sur les modèles de reconnaissance vocale ;
- Tester, le cas échéant, un nouveau modèle qui semblerait pertinent.

**Profil recherché**
- Etudiant(e) en master 2 ou école d’ingénieur.
- M1 ou M2 en ingénierie informatique.
- Connaissances des problématiques et technologies de la reconnaissance vocale.
- Connaissances en développement informatique (Python).
- Connaissance des méthodes mathématiques, statistiques, de machine learning et deep learning.
- Des connaissances sur le secteur de l’énergie seraient un plus.
- Curieux.se, ingénieux.se et motivé.e pour le domaine de la recherche appliquée.
- Bon niveau rédactionnel.

**Références**
- A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” Dec. 2022, doi: 10.48550/ARXIV.2212.04356.
- M. Bain, J. Huh, T. Han, and A. Zisserman, “WhisperX: Time-Accurate Speech Transcription of Long-Form Audio,” Mar. 2023, doi: 10.48550/ARXIV.2303.00747.
- S. Kim et al., “Semantic Distance: A New Metric for ASR Performance Analysis Towards Spoken Language Understanding,” Apr. 2021, doi: 10.48550/ARXIV.2104.02138.



  • Palaiseau, France CEA Temps plein

    Description du poste **Domaine**: - Autre **Contrat**: - Stage **Intitulé de l'offre**: - Modèle de langage et reconstruction 3D neurale pour la navigation autonome d'un robot H/F **Sujet de stage**: - A la frontière de l'intelligence artificielle et de la robotique, vous travaillerez sur l'exploitation conjointe d'un grand modèle de langage et...


  • Palaiseau, France EDF Temps plein

    Une entreprise d'énergie recherche un(e) stagiaire pour travailler sur l'entraînement de modèles d'intelligence artificielle appliqués à la segmentation panoptique des données photographiques dans le cadre de la maintenance des centrales nucléaires. Le stage implique la recherche de modèles récents ainsi que l'entraînement et l'optimisation des...


  • Palaiseau, France EDF Temps plein

    Contexte général Dans le cadre de la maintenance des centrales nucléaires, EDF possède de grandes quantités de données disponibles, sous forme de photos, à analyser. Pour optimiser les études d'ingéniéries, il est intéressant de pouvoir déterminer automatiquement à quelle catégorie métier les objets en photo appartiennent. Pour cela, les...


  • Palaiseau, Île-de-France EDF Temps plein

    Contexte généralDans le cadre de la maintenance des centrales nucléaires, EDF possède de grandes quantités de données disponibles, sous forme de photos, à analyser. Pour optimiser les études d'ingéniéries, il est intéressant de pouvoir déterminer automatiquement à quelle catégorie métier les objets en photo appartiennent.Pour cela, les...


  • Palaiseau, France EDF Temps plein

    **Description de l'offre**: Tu recherches une entreprise stable et dynamique avec des valeurs humaines dans laquelle tu pourras t’épanouir et acquérir de l’expérience? Tu seras rattaché(e) à la Division de l'Ingénierie du Parc nucléaire et de l'Environnement (DIPDE) d’EDF à Marseille. Ce sont environ 2000 collaborateurs répartis sur Marseille,...


  • Palaiseau, Île-de-France EDF Temps plein

    Mise en ligne le Type de contrat : StageNiveau de formation : BAC +4 / BAC +5Expérience : DébutantSpécialité(s) : Concepteur DéveloppeurPays / Région : France / Ile-de-FranceDépartement : Essonne (91)Ville : Palaiseau Description de l'offreContexteEDF R&D a pour missions principales de contribuer à l'amélioration de la performance des unités...

  • Stage Cabinet Du Maire

    il y a 2 semaines


    Palaiseau, France Mairie de Palaiseau Temps plein

    Stage au sein du Cabinet du Maire Description de la mission La ville de Palaiseau propose un stage de 3 à 6 mois idéalement (à partir de janvier 2026) au sein du Cabinet du Maire de Palaiseau, Grégoire de Lasteyrie, qui est également Président de l’Agglomération Paris-Saclay et Vice-Président chargé des Transports à la région...


  • Palaiseau, France EDF Temps plein

    Mise en ligne le 2025-09-30 Type de contrat : Stage Niveau de formation : BAC +4 / BAC +5 Spécialité(s) : Ingénierie / Expertise / Recherche Pays / Région : France / Ile-de-France Département : Essonne (91) Ville : 7 Boulevard Gaspard Monge 91120 Palaiseau **Description de l'offre**: Contexte général: La détection précoce des défauts dans les...


  • Palaiseau, France EDF Temps plein

    Contexte généralDans le cadre de la maintenance des centrales nucléaires, EDF possède de grandes quantités de données disponibles, sous forme de photos, à analyser. Pour optimiser les études d\'ingénierie, il est intéressant de pouvoir déterminer automatiquement à quelle catégorie métier les objets en photo appartiennent.Pour cela, les modèles...


  • Palaiseau, Île-de-France Thales Temps plein

    Lieu : Palaiseau, FranceConstruisons ensemble un avenir de confianceThales est un leader mondial des hautes technologies spécialisé dans trois secteurs d'activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l'environnement et plus...