Stage 4 à 6 mois Mise en place d'un serveur de transcription automatique pour boites noires audio
il y a 18 heures
N° TEC-ESA-ST2026_AUD01
Stage Mise en place d'un serveur de transcription automatique de la parole pour les enregistreurs phoniques d'aéronefs (boites noires audio)
Lieu : Laboratoire Audio-CVR, BEA, 10 rue de Paris, 93350 Le Bourget
Période : 4 à 6 mois
Compensation financière : gratification réglementaire, prise en charge partielle des frais de transport
Droit à congés : jusqu'à 2 jour par mois sous forme d'absence (non gratifiée)
Contexte d'application du stage
Dans le cadre des enquêtes sur les accidents et incidents de l'aviation civile et militaire, le département technique du BEA (pour l'aviation civile) et le laboratoire RESEDA (pour l'aviation militaire) sont chargés de la récupération des données contenues dans les enregistreurs de vol communément appelés « boîtes noires » par le grand public.
Actuellement, le BEA dispose d'un serveur informatique de calcul (distribué sur des cartes graphiques NVIDIA) dédié au traitement automatique de la parole, qui sert à la fois en production et en test à la transcription automatique de contenu audio des enregistreurs de vol phoniques. Cette première étape de transcription automatique est un travail préliminaire à la transcription manuelle par les spécialistes audio. Le serveur fonctionne sous Ubuntu 18.04 LTS et dispose d'une documentation d'installation.
Le BEA plannifie la mise en place d'un second serveur en cas de panne du premier et pour faire ses tests de correction de bugs et d'amélioration du système de transcription. Il conviendra d'abord d'installer et de faire fonctionner le même système de transcription de la parole (Whisper, OpenAI) que sur le serveur actuel puis d'y apporter des améliorations pour pouvoir notamment laisser à l'utilisateur le choix d'autres systèmes de transcription automatique (par ex. Scribe de la DSNA, WhisperX).
Les travaux seront réalisés au département technique du BEA sur une durée de 4 à 6 mois. Le(La) stagiaire sera intégré(e) à l'équipe du laboratoire d'analyse audio du BEA ; il (elle) aura l'occasion de découvrir les techniques d'exploitation et d'analyse des données réalisées dans le cadre du support aux enquêtes de sécurité de l'aviation civile.
Travaux à réaliser lors du stage
· Choix du matériel à assembler (suivi de l'acquisition par le BEA)
· Installation et test d'un serveur de transcription automatique de la parole, similaire à l'existant mais avec :
o la dernière version LTS Ubuntu ou un autre système d'exploitation plus orienté serveur (par ex. Debian Trixie)
o automatisation des mises à jour sous forme de paquet
o réorganisation de l'emplacement des logiciels sous forme standard
· Amélioration de l'interface utilisateur (prompt pour guider la transcription, paramétrisation des langues, traduction, interfaçage avec le logiciel d'édition sonore Magix Samplitude, etc.)
· Interfaçage du serveur avec le système de transcription Scribe de la DSNA (communication avec serveur distant)
· Lancement en production du nouveau serveur
· Mise à niveau de l'ancien serveur, mise à jour logiciel
· En fonction du temps disponible :
o adaptation du modèle Whisper avec des bases déjà annotées du BEA
o interfaçage avec les transcriptions d'enquête validées par un expert pour adaptation automatique et incrémentale du modèle de transcription automatique
o Fonctionnalités supplémentaires liées aux remontées des utilisateurs
Profil du (de la) candidat(e)
o Niveau M1/M2 ou équivalent dans le domaine de l'architecture parallèle
o Connaissances exigées en :
o Linux
o Serveur
o CUDA
o Git
o Base de données
o Utilisation de modèles de reconnaissance automatique (intelligence artificielle)
o Connaissances de préférence, mais non obligatoire, en :
o Traitement automatique de la parole
o Traitement du signal audio numérique
Bibliographie
BEA, Ce qu'il faut savoir sur les enregistreurs de vol, 2009.
A Radford, JW Kim, T Xu, G Brockman, C McLeavey, I Sutskever, Robust speech recognition via large-scale weak supervision, International conference on machine learning, 2023
Bain, M., Huh, J., Han, T. and Zisserman, A. , WhisperX: Time-Accurate Speech Transcription of Long-Form Audio, arXiv, 2023
Betouret Candau, F., Carol, J., Martin, S., Roques, T., Scribe : libérer le potentiel de la communication vocale ATC, Les entretiens de Toulouse, 2025
Bredin, H. and Laurent, A., End-to-end speaker segmentation for overlap-aware resegmentation, Proc. Interspeech 2021, 2021
Bredin, H., Yin, R., Coria; J. M., Gelly, G., Korshunov, P., Lavechin, M., Fustes, D., Titeux, H., Bouaziz, W. Gill, M.-P, neural building blocks for speaker diarization, ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing,
Contact et encadrement de stage
Audio, parole :
Lionel Feugère – Laboratoire Audio-CVR
Enquêteur spécialisé, docteur en acoustique
Email :
Système d'exploitation Linux, serveurs :
Stéphane Pion – Laboratoire enregistreurs FDR
Enquêteur spécialisé
Email :
Candidature
Envoyer un CV et une lettre de motivation expliquant comment votre formation, vos compétences et vos intérêts sont adaptées à ce stage. Les candidatures seront analysées au fil de l'eau.
Type d'emploi : Temps plein, Stage
Durée du contrat : 4-6 mois
Avantages :
- Prise en charge du transport quotidien
- Restaurant d'entreprise
Lieu du poste : En présentiel
-
Mise en place d'une base de données acoustiques
il y a 1 semaine
Noisy-le-Grand, Île-de-France Trinnov Audio Temps pleinL'ENTREPRISETrinnov Audio développe et commercialise des produits audio de haute technologie pour les salles de cinéma, les installations hifi et home cinema haut de gamme et les studios de production professionnels.Plusieurs brevetsTravaux de recherche soutenus par le Ministère de la Recherche et la Commission EuropéenneÉquipe d'une vingtaine de...
-
Bruyères-le-Châtel, Île-de-France CEA Temps pleinInformations générales Entité de rattachement La Direction des Applications Militaires (DAM) du CEA, au cur des enjeux de la dissuasion nucléaire Française, cherche ses futurs talents. Organisme inclusif, le CEA est handi-accueillant : nos emplois sont ouverts à toutes et tous. Associer les forces et les compétences de chacun pour atteindre nos...
-
Bruyères-le-Châtel, Île-de-France CEA Temps pleinInformations générales Entité de rattachement La Direction des Applications Militaires (DAM) du CEA, au cœur des enjeux de la dissuasion nucléaire Française, cherche ses futurs talents. Organisme inclusif, le CEA est handi-accueillant : nos emplois sont ouverts à toutes et tous. Associer les forces et les compétences de chacun pour atteindre nos...
-
Stage Automatique
il y a 2 semaines
Le Plessis-Robinson, Île-de-France AEROCONTACT Temps pleinMBDA, au coeur de notre défense... Rejoignez notre groupe, leader européen dans la conception, la fabrication et la commercialisation de missiles et de systèmes d'armes qui répondent aux besoins présents et futurs des armées européennes et alliées Auprès de nos collaborateurs, venez prendre part à nos projets, en service opérationnel ou en...
-
Stage Assistant.e logistique événementielle à Noisy
il y a 6 jours
Noisy-le-Sec, Île-de-France KEEMIA Temps pleinN°1 en France du marketing terrain et fort de 20 ans d'expertise en événementiel, KEEMIA est un réseau de 10 agences implanté sur toute la France.C'est une agence de marketing opérationnel qui imagine, conçoit et produit des dispositifs d'activation terrain autour de 5 pôles :Hors media & solutions OOH (street marketing, medias tactiques, affichages...
-
STAGE - Assistant Partenariat Sport RMC (H/F)
il y a 1 semaine
Le Vaudoué, Île-de-France CMA CGM Temps pleinLe groupe RMC BFM, 3ème groupe média privé français, s'appuie sur une offre éditoriale qui allie qualité de l'information en continu nationale comme régionale et richesse de divertissement. NextProd gère l'ensemble de la production pour les chaines TV et radios du groupe : BFMTV, BFM BUSINESS, BFM en régions, RMC DECOUVERTE, RMC STORY, RMC SPORT,...
-
Stage - 6 mois - Valuation Risk Analyst F/H
il y a 2 semaines
Charenton-le-Pont, Île-de-France Natixis Temps pleinDescription de l'entrepriseInstitution financière internationale de premier plan, Natixis Corporate & Investment Banking met à disposition des entreprises, institutions financières, fonds d'investissement, agences souveraines et supranationales une palette de services en conseil, investment banking, financements, banque commerciale et sur les marchés de...
-
Bruyères-le-Châtel, Île-de-France CEA Temps pleinInformations générales Entité de rattachement La Direction des Applications Militaires (DAM) du CEA, au cœur des enjeux de la dissuasion nucléaire Française, cherche ses futurs talents. Organisme inclusif, le CEA est handi-accueillant : nos emplois sont ouverts à toutes et tous. Associer les forces et les compétences de chacun pour atteindre nos...
-
Assistante/Assistant Développement Des Ventes GMS
il y a 2 semaines
Charenton-le-Pont, Île-de-France LA MARTINIQUAISE Temps pleinPoliakov, Saint James, Label 5, Gibson's, vous connaissez déjà nos marques … Vous allez adorer notre groupe.Faire un stage chez La Martiniquaise, c'est l'opportunité d'acquérir une réelle expérience en rejoignant la 1ère entreprise de boissons festives en France à travers deux principales filiales Bardinet et La Martiniquaise.Notre entreprise reste...
-
Assistante/Assistant Développement Des Ventes GMS
il y a 2 semaines
Charenton-le-Pont, Île-de-France La Martiniquaise-Bardinet Temps pleinPoliakov, Saint James, Label 5, Gibson's, vous connaissez déjà nos marques … Vous allez adorer notre groupe.Faire un stage chez La Martiniquaise, c'est l'opportunité d'acquérir une réelle expérience en rejoignant la1ère entreprise deboissons festives en Franceà travers deux principales filiales Bardinet et La Martiniquaise.Notre entreprise...