Stage 4 à 6 mois Mise en place d'un serveur de transcription automatique pour boites noires audio

il y a 2 jours


Le Bourget, Île-de-France BEA - Bureau d'Enquêtes et d'Analyses pour la sécurité de l'aviation civile Temps plein

N° TEC-ESA-ST2026_AUD01

Stage Mise en place d'un serveur de transcription automatique de la parole pour les enregistreurs phoniques d'aéronefs (boites noires audio)

Lieu : Laboratoire Audio-CVR, BEA, 10 rue de Paris, 93350 Le Bourget

Période : 4 à 6 mois

Compensation financière : gratification réglementaire, prise en charge partielle des frais de transport

Droit à congés : jusqu'à 2 jour par mois sous forme d'absence (non gratifiée)

Contexte d'application du stage

Dans le cadre des enquêtes sur les accidents et incidents de l'aviation civile et militaire, le département technique du BEA (pour l'aviation civile) et le laboratoire RESEDA (pour l'aviation militaire) sont chargés de la récupération des données contenues dans les enregistreurs de vol communément appelés « boîtes noires » par le grand public.

Actuellement, le BEA dispose d'un serveur informatique de calcul (distribué sur des cartes graphiques NVIDIA) dédié au traitement automatique de la parole, qui sert à la fois en production et en test à la transcription automatique de contenu audio des enregistreurs de vol phoniques. Cette première étape de transcription automatique est un travail préliminaire à la transcription manuelle par les spécialistes audio. Le serveur fonctionne sous Ubuntu 18.04 LTS et dispose d'une documentation d'installation.

Le BEA plannifie la mise en place d'un second serveur en cas de panne du premier et pour faire ses tests de correction de bugs et d'amélioration du système de transcription. Il conviendra d'abord d'installer et de faire fonctionner le même système de transcription de la parole (Whisper, OpenAI) que sur le serveur actuel puis d'y apporter des améliorations pour pouvoir notamment laisser à l'utilisateur le choix d'autres systèmes de transcription automatique (par ex. Scribe de la DSNA, WhisperX).

Les travaux seront réalisés au département technique du BEA sur une durée de 4 à 6 mois. Le(La) stagiaire sera intégré(e) à l'équipe du laboratoire d'analyse audio du BEA ; il (elle) aura l'occasion de découvrir les techniques d'exploitation et d'analyse des données réalisées dans le cadre du support aux enquêtes de sécurité de l'aviation civile.

Travaux à réaliser lors du stage

· Choix du matériel à assembler (suivi de l'acquisition par le BEA)

· Installation et test d'un serveur de transcription automatique de la parole, similaire à l'existant mais avec :

o la dernière version LTS Ubuntu ou un autre système d'exploitation plus orienté serveur (par ex. Debian Trixie)

o automatisation des mises à jour sous forme de paquet

o réorganisation de l'emplacement des logiciels sous forme standard

· Amélioration de l'interface utilisateur (prompt pour guider la transcription, paramétrisation des langues, traduction, interfaçage avec le logiciel d'édition sonore Magix Samplitude, etc.)

· Interfaçage du serveur avec le système de transcription Scribe de la DSNA (communication avec serveur distant)

· Lancement en production du nouveau serveur

· Mise à niveau de l'ancien serveur, mise à jour logiciel

· En fonction du temps disponible :

o adaptation du modèle Whisper avec des bases déjà annotées du BEA

o interfaçage avec les transcriptions d'enquête validées par un expert pour adaptation automatique et incrémentale du modèle de transcription automatique

o Fonctionnalités supplémentaires liées aux remontées des utilisateurs

Profil du (de la) candidat(e)

o Niveau M1/M2 ou équivalent dans le domaine de l'architecture parallèle

o Connaissances exigées en :

o Linux

o Serveur

o CUDA

o Git

o Base de données

o Utilisation de modèles de reconnaissance automatique (intelligence artificielle)

o Connaissances de préférence, mais non obligatoire, en :

o Traitement automatique de la parole

o Traitement du signal audio numérique

Bibliographie

  • BEA, Ce qu'il faut savoir sur les enregistreurs de vol, 2009.

  • A Radford, JW Kim, T Xu, G Brockman, C McLeavey, I Sutskever, Robust speech recognition via large-scale weak supervision, International conference on machine learning, 2023

  • Bain, M., Huh, J., Han, T. and Zisserman, A. , WhisperX: Time-Accurate Speech Transcription of Long-Form Audio, arXiv, 2023

  • Betouret Candau, F., Carol, J., Martin, S., Roques, T., Scribe : libérer le potentiel de la communication vocale ATC, Les entretiens de Toulouse, 2025

  • Bredin, H. and Laurent, A., End-to-end speaker segmentation for overlap-aware resegmentation, Proc. Interspeech 2021, 2021

  • Bredin, H., Yin, R., Coria; J. M., Gelly, G., Korshunov, P., Lavechin, M., Fustes, D., Titeux, H., Bouaziz, W. Gill, M.-P, neural building blocks for speaker diarization, ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing,

Contact et encadrement de stage

Audio, parole :

Lionel Feugère – Laboratoire Audio-CVR

Enquêteur spécialisé, docteur en acoustique

Email :

Système d'exploitation Linux, serveurs :

Stéphane Pion – Laboratoire enregistreurs FDR

Enquêteur spécialisé

Email :

Candidature

Envoyer un CV et une lettre de motivation expliquant comment votre formation, vos compétences et vos intérêts sont adaptées à ce stage. Les candidatures seront analysées au fil de l'eau.

Type d'emploi : Temps plein, Stage

Durée du contrat : 4-6 mois

Avantages :

  • Prise en charge du transport quotidien
  • Restaurant d'entreprise

Lieu du poste : En présentiel



  • Noisy-le-Grand, Île-de-France Trinnov Audio Temps plein

    L'ENTREPRISETrinnov Audio développe et commercialise des produits audio de haute technologie pour les salles de cinéma, les installations hifi et home cinema haut de gamme et les studios de production professionnels.Plusieurs brevetsTravaux de recherche soutenus par le Ministère de la Recherche et la Commission EuropéenneÉquipe d'une vingtaine de...


  • Bruyères-le-Châtel, Île-de-France CEA Temps plein

    Informations générales Entité de rattachement La Direction des Applications Militaires (DAM) du CEA, au cœur des enjeux de la dissuasion nucléaire Française, cherche ses futurs talents. Organisme inclusif, le CEA est handi-accueillant : nos emplois sont ouverts à toutes et tous. Associer les forces et les compétences de chacun pour atteindre nos...


  • Bruyères-le-Châtel, Île-de-France CEA Temps plein

    Informations générales Entité de rattachement La Direction des Applications Militaires (DAM) du CEA, au cœur des enjeux de la dissuasion nucléaire Française, cherche ses futurs talents. Organisme inclusif, le CEA est handi-accueillant : nos emplois sont ouverts à toutes et tous. Associer les forces et les compétences de chacun pour atteindre nos...


  • Noisy-le-Grand, Île-de-France RATP Temps plein

    Rejoins nous en tant qu'ingénieur automatisation des testsLa Direction opérationnelle Digital & Innovation conçoit, déploie et exploite tous les systèmes d'information et solutions digitales nécessaires à l'ensemble des activités du Groupe (conception de l'offre de transport, planification des personnels et des trains, sûreté du parc, maintenance,...


  • Bruyères-le-Châtel, Île-de-France CEA Temps plein

    Informations générales Entité de rattachement La Direction des Applications Militaires (DAM) du CEA, au cœur des enjeux de la dissuasion nucléaire Française, cherche ses futurs talents. Organisme inclusif, le CEA est handi-accueillant : nos emplois sont ouverts à toutes et tous. Associer les forces et les compétences de chacun pour atteindre nos...

  • STAGE 6 MOIS Assistante

    il y a 4 jours


    Charenton-le-Pont, Île-de-France LA MARTINIQUAISE Temps plein

    Envie de rejoindre un groupe dynamique, leader des boissons festives, de représenter des marques fortes en France et à l'international, au sein d'une entreprise familiale, française, et indépendante ?Alors rejoignez le groupe La Martiniquaise-Bardinet Intervenant majeur sur tous les marchés des boissons festives (Alcools Blancs, Whiskies, Apéritifs,...


  • Le Vaudoué, Île-de-France CMA CGM Temps plein

    Le groupe RMC BFM, 3ème groupe média privé français, s'appuie sur une offre éditoriale qui allie qualité de l'information en continu nationale comme régionale et richesse de divertissement. NextProd gère l'ensemble de la production pour les chaines TV et radios du groupe : BFMTV, BFM BUSINESS, BFM en régions, RMC DECOUVERTE, RMC STORY, RMC SPORT,...


  • Bruyères-le-Châtel, Île-de-France CEA Temps plein

    Informations générales Entité de rattachement La Direction des Applications Militaires (DAM) du CEA, au cœur des enjeux de la dissuasion nucléaire Française, cherche ses futurs talents. Organisme inclusif, le CEA est handi-accueillant : nos emplois sont ouverts à toutes et tous. Associer les forces et les compétences de chacun pour atteindre nos...


  • Bruyères-le-Châtel, Île-de-France CEA Temps plein

    Informations générales Entité de rattachement La Direction des Applications Militaires (DAM) du CEA, au cœur des enjeux de la dissuasion nucléaire Française, cherche ses futurs talents. Organisme inclusif, le CEA est handi-accueillant : nos emplois sont ouverts à toutes et tous. Associer les forces et les compétences de chacun pour atteindre nos...


  • Charenton-le-Pont, Île-de-France LA MARTINIQUAISE Temps plein

    Poliakov, Saint James, Label 5, Gibson's, vous connaissez déjà nos marques … Vous allez adorer notre groupe.Faire un stage chez La Martiniquaise, c'est l'opportunité d'acquérir une réelle expérience en rejoignant la 1ère entreprise de boissons festives en France à travers deux principales filiales Bardinet et La Martiniquaise.Notre entreprise reste...