Doctorant F/H Description automatisée de scènes audio explicable et frugale

Il y a 6 mois


Paris, France INRIA Temps plein

Contexte et atouts du poste

Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et forces de l’intérieur. La thèse sera réalisée au sein de l’équipe de recherche en traitement de l’audio de Inria D&S, sous la direction de Jean-François Bonastre et co-encadrée par Raphaël Duroselle.

La description automatisée de scènes audio consiste à présenter aux opérateurs un condensé des informations présentes dans la scène en question, sous la forme d’un texte augmenté. Ce condensé permet de faire ressortir de façon synthétique et visuelle les informations les plus importantes, tout en structurant efficacement l’accès aux informations précises. Pour illustrer ce point, un condensé pourrait prendre la forme suivante : « Dans cet enregistrement d’une durée de cinq minutes, trois locuteurs différents sont présents. Le locuteur A correspond à une identité connue dans la base de données et s’exprime en Français avec un fort accent du Monawa, les locuteurs B et C sont inconnus dans la base de données et s’expriment en Français dans leurs interactions avec A et dans une langue non identifiée lorsqu’ils parlent ensemble. Les voix de B et C présentent de fortes similitudes avec les locuteurs de la région du Quabar oriental. Le thème général de l’enregistrement concerne un transfert de marchandises entre les villes de Orienta et de Flagrance. La date du 8 Juillet 2023 est citée à trois reprises ». En cliquant sur A, l’opérateur disposera des informations sur A et sur les détails de l’identification vocale réalisée. L’accès aux segments temporels pendant lesquels A a parlé et à la transcription de ceux-ci sera direct. Dans cette transcription, les noms de personnes, de lieux ou les dates (les entités nommées) seront mises en évidence.

Mission confiée

Objectif

La thèse vise à proposer un cadre général pour le traitement des enregistrements audio dans le cadre du renseignement. Elle consiste à définir une application de haut niveau adaptée aux besoins des utilisateurs finaux promouvant la présentation d’un enregistrement sous la forme d’un rapport synthétique pour mettre en évidence les points saillants.

Approche

L’approche visée s’inspire à la fois de la description textuelle de scènes vidéo [1] et sur les systèmes de dialogue reposant sur des scènes audio-visuelle [2]. Le système reposera sur l’extraction de représentations du signal de parole à différentes échelles (trame, segment de parole ou événement sonore, enregistrement complet), éventuellement dédiées à des tâches différentes. Les représentations, utiles aux différentes briques technologiques du système seront des embeddings extraits de réseaux de neurones profonds, génériques [3] ou dédiés à chaque tâche. La fusion entre les différents niveaux d’information pourra être réalisée avec une architecture s’inspirant du schéma « Encodeur-Decodeur » multi-stream [4], avec plusieurs encodeurs produisant des séquences de représentations et un ou plusieurs décodeurs réalisant les tâches ou sous-tâches nécessaires au système. Un de ces décodeurs produira un descriptif textuel de la scène.

Des directions de recherche potentielles, visant à dépasser un système de description de scènes audio par assemblage de briques existantes, pourront être discutées et affinées avec le candidat.

Principales activités

Etat de l’art, constitution d’un système de description de scènes audio par assemblage des outils existants ; Définition de la tâche, élaboration d’un corpus et d’un protocole d’évaluation ; Travail sur l’alignement entre des représentations auto-supervisées du signal de parole et des grands modèles de langage ; Entraînement faiblement supervisé du système ; Evaluation des systèmes et confiance dans les prédictions.

Compétences

Master 2 ou diplôme d’école d’ingénieur en informatique, mathématiques appliquées ou phonétique, Intérêt marqué pour la recherche appliquée, Maîtrise de l’anglais parlé et écrit, Connaissances en traitement du signal, Connaissances en apprentissage automatique de manière générale et dans les approches neuronales (deep learning) en particulier, Connaissance pratique d’outils comme Pytorch, Keras ou Scikit-learn, Expérience en traitement automatique de la parole, dont la connaissance de plateformes open-source comme Kaldi ou Speechbrain.

Références

[1] Aafaq, N., Mian, A., Liu, W., Gilani, S. Z., & Shah, M. . Video description: A survey of methods, datasets, and evaluation metrics. ACM Computing Surveys (CSUR), 52, 1-37.

[2] Hori, Chiori, Huda Alamri, Jue Wang, Gordon Wichern, Takaaki Hori, Anoop Cherian, Tim K. Marks, et al. « End-to-End Audio Visual Scene-Aware Dialog Using Multimodal Attention-Based Video Features ». In ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2352‑56. Brighton, United Kingdom: IEEE, 2019. [3] Zhang, C., & Tian, Y. (2016, December). Automatic video description generation via lstm with joint two-stream encoding. In 2016 23rd International Conference on Pattern Recognition (ICPR) (pp. 2924-2929). IEEE.

[4] Pratap, Vineel, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, et al. 2023. « Scaling Speech Technology to 1,000+ Languages ». arXiv.

Avantages

Restauration subventionnée, Transports publics remboursés partiellement, Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement), Possibilité de télétravail (2 jours par semaine) et aménagement du temps de travail, Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.), Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria), Accès à la formation professionnelle,

Rémunération

Année 1 & 2 = 2082 € bruts mensuels

Année 3 = 2190 € bruts mensuels



  • Paris, Île-de-France INRIA Temps plein

    Contexte et objectifs du posteINRIA Défense&Sécurité (INRIA D&S) a été créé pour répondre aux besoins numériques des forces armées et forces de l'intérieur. Le poste de chercheur en traitement de l'audio est disponible dans l'équipe de recherche en traitement de l'audio de INRIA D&S, sous la direction de Jean-François Bonastre et co-encadrée...


  • Paris, France INRIA Temps plein

    Contexte et atouts du poste Inria Défense&Sécurité (Inria D&S) was created in 2020 to federate Inria’s actions for the benefit of military forces. The PhD will be carried out within the audio processing research team of Inria D&S, under the supervision of Jean-François Bonastre and co-supervised by Raphaël Duroselle.  The automatic audio...


  • Paris, Île-de-France INRIA Temps plein

    Research OpportunityINRIA Défense&Sécurité is seeking a PhD researcher to work on the development of explainable audio scene description systems. The successful candidate will join the audio processing research team and contribute to the design and implementation of novel deep learning architectures for audio signal processing.Key ResponsibilitiesDevelop...


  • Paris, Île-de-France INRIA Temps plein

    Job Description We are seeking a highly motivated PhD researcher to join our team at INRIA Défense&Sécurité. The successful candidate will be working on a PhD project focused on developing a general framework for processing audio recordings for intelligence purposes. Key ResponsibilitiesDevelop a high-level application adapted to the needs of end users,...


  • Paris, France Inria Temps plein

    **Type de contrat **:CDD **Niveau de diplôme exigé **:Bac + 5 ou équivalent **Fonction **:Doctorant **Contexte et atouts du poste**: Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et forces de l’intérieur. La thèse sera réalisée au sein de...


  • Paris, Île-de-France INRIA Temps plein

    Contexte du posteInria Défense&Sécurité recherche un chercheur en traitement de l'audio pour contribuer à la définition d'un système de description de scènes audio pour les besoins des forces armées et forces de l'intérieur.MissionLe candidat devra développer un cadre général pour le traitement des enregistrements audio dans le cadre du...

  • Audio Lead

    Il y a 2 mois


    Paris, France Lionbridge Temps plein

    Paris, Île-de-France, France**Job Title**: Audio Lead **Location**: Paris, France **Salary**: 25,000 - 35,000 EUR per month **Audio Lead** As an Audio Lead at Lionbridge Games, you will be responsible for managing and coordinating all aspects of audio production for video games, focusing on dubbing and voiceover work. You will oversee casting,...


  • Paris, France Inria Temps plein

    **Type de contrat **:Stage **Niveau de diplôme exigé **:Bac + 4 ou équivalent **Autre diplôme apprécié **:de M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée. **Fonction **:Stagiaire des fonctions support **Contexte et atouts du poste**: L’objectif du stage...

  • Doctorant (H/F)

    Il y a 3 mois


    Paris 5e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : jeudi 3 octobre 2024 23:59:00 heure de Paris **Informations générales**: **Intitulé de l'offre **:doctorant (H/F) au PMMH** Référence : UMR7636-FREAUG-051 Nombre de Postes : 1 Lieu de travail : PARIS 05 Date de publication : jeudi 12 septembre...

  • Audio Production Manager

    il y a 1 mois


    Paris, Île-de-France Lionbridge Temps plein

    Job Title: Audio Production ManagerLocation: Paris, FranceSalary: 40,000 EUR per year Audio Production ManagerLionbridge Games is seeking an experienced Audio Production Manager to oversee the coordination of all aspects of audio production for video games, focusing on dubbing and voiceover work. As a key member of our team, you will be responsible for...

  • Doctorant (H/F)

    Il y a 3 mois


    Paris 13e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : mardi 17 septembre 2024 23:59:00 heure de Paris **Informations générales**: **Intitulé de l'offre **:Doctorant (H/F) - Mécanisme moléculaire de la régulation de l’AMPK par le signal « glucose » chez la levure S. cerevisiae** Référence :...

  • Audio Lead

    il y a 3 semaines


    Paris, Île-de-France Lionbridge Temps plein

    About the RoleAs an Audio Lead at Lionbridge Games, you will be responsible for the overall management and coordination of audio production for video games, with a focus on dubbing and voiceover work. Key responsibilities include casting, scheduling, and recording sessions, as well as collaborating with internal teams, talent, and freelancers to ensure...

  • Audio Project Manager

    il y a 4 semaines


    Paris, Île-de-France Lionbridge Temps plein

    Job OverviewLionbridge Games is seeking an experienced Audio Lead to manage and coordinate all aspects of audio production for video games, focusing on dubbing and voiceover work. This role will oversee casting, scheduling, and recording sessions while collaborating with internal teams, talent, and freelancers to ensure seamless project execution.Key...


  • Paris, France Institut Mines-Télécom Temps plein

    **Présentation de Télécom SudParis**: Télécom SudParis est une grande école publique d'ingénieurs reconnue au meilleur niveau des sciences et technologies du numérique. La qualité de ses formations est basée sur l’excellence scientifique de son corps professoral et une pédagogie mettant l’accent sur les projets d’équipes, l’innovation de...


  • Paris 5e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : vendredi 25 octobre 2024 23:59:00 heure de Paris **Informations générales**: **Intitulé de l'offre **:H/F Doctorant en Biologie** Référence : UMR8197-VALHER-134 Nombre de Postes : 1 Lieu de travail : PARIS 05 Date de publication : vendredi 4 octobre...


  • Paris 13e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : mercredi 25 septembre 2024 23:59:00 heure de Paris **Informations générales**: **Intitulé de l'offre **:Doctorant en biologie cellulaire (H/F)** Référence : UMR7592-PAUCON-008 Nombre de Postes : 1 Lieu de travail : PARIS 13 Date de publication :...

  • Doctorant (H/F)

    il y a 2 jours


    Paris 6e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : vendredi 20 décembre 2024 23:59:00 heure de Paris **Informations générales**: **Intitulé de l'offre **:Doctorant (H/F) en biologie structurale in-cell par RMN** Référence : UMR8038-FRATHE-002 Nombre de Postes : 1 Lieu de travail : PARIS 06 Date de...


  • Paris, Île-de-France DEVIALET Temps plein

    Description Devialet, une entreprise pionnière dans le domaine de l'acoustique, recrute un Ingénieur Système Audio pour rejoindre son équipe de R&D. En tant qu'Ingénieur Système Audio, vous serez chargé de concevoir et de développer des systèmes audio pour l'industrie automobile. Vous travaillerez en étroite collaboration avec...

  • Audio Tech Lead

    Il y a 5 mois


    Paris, France Enchanted Tools Temps plein

    **Change the face of robotics with us.** At Enchanted Tools, we are bringing a new generation of robots to life. Combining world-class engineering expertise and the power of imagination, we plan to make everyone’s life better with robotic characters, by tackling concrete issues and needs. Why you should join us: - You will have a unique opportunity to...


  • Paris, France DEVIALET Temps plein

    Description Partout dans le monde, tous les jours, nos collaboratrices et collaborateurs donnent corps à l’ambition de Devialet: remettre le son au cœur de la vie de chacun d’entre nous. Fondée en 2007, Devialet est devenue en peu de temps l’entreprise la plus primée au monde dans le domaine de l’acoustique, pour ses technologies comme son...