Doctorant F/H Description automatisée de scènes audio explicable et frugale

il y a 4 semaines


Paris, France INRIA Temps plein

Contexte et atouts du poste

Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et forces de l’intérieur. La thèse sera réalisée au sein de l’équipe de recherche en traitement de l’audio de Inria D&S, sous la direction de Jean-François Bonastre et co-encadrée par Raphaël Duroselle.

La description automatisée de scènes audio consiste à présenter aux opérateurs un condensé des informations présentes dans la scène en question, sous la forme d’un texte augmenté. Ce condensé permet de faire ressortir de façon synthétique et visuelle les informations les plus importantes, tout en structurant efficacement l’accès aux informations précises. Pour illustrer ce point, un condensé pourrait prendre la forme suivante : « Dans cet enregistrement d’une durée de cinq minutes, trois locuteurs différents sont présents. Le locuteur A correspond à une identité connue dans la base de données et s’exprime en Français avec un fort accent du Monawa, les locuteurs B et C sont inconnus dans la base de données et s’expriment en Français dans leurs interactions avec A et dans une langue non identifiée lorsqu’ils parlent ensemble. Les voix de B et C présentent de fortes similitudes avec les locuteurs de la région du Quabar oriental. Le thème général de l’enregistrement concerne un transfert de marchandises entre les villes de Orienta et de Flagrance. La date du 8 Juillet 2023 est citée à trois reprises ». En cliquant sur A, l’opérateur disposera des informations sur A et sur les détails de l’identification vocale réalisée. L’accès aux segments temporels pendant lesquels A a parlé et à la transcription de ceux-ci sera direct. Dans cette transcription, les noms de personnes, de lieux ou les dates (les entités nommées) seront mises en évidence.

Mission confiée

Objectif

La thèse vise à proposer un cadre général pour le traitement des enregistrements audio dans le cadre du renseignement. Elle consiste à définir une application de haut niveau adaptée aux besoins des utilisateurs finaux promouvant la présentation d’un enregistrement sous la forme d’un rapport synthétique pour mettre en évidence les points saillants.

Approche

L’approche visée s’inspire à la fois de la description textuelle de scènes vidéo [1] et sur les systèmes de dialogue reposant sur des scènes audio-visuelle [2]. Le système reposera sur l’extraction de représentations du signal de parole à différentes échelles (trame, segment de parole ou événement sonore, enregistrement complet), éventuellement dédiées à des tâches différentes. Les représentations, utiles aux différentes briques technologiques du système seront des embeddings extraits de réseaux de neurones profonds, génériques [3] ou dédiés à chaque tâche. La fusion entre les différents niveaux d’information pourra être réalisée avec une architecture s’inspirant du schéma « Encodeur-Decodeur » multi-stream [4], avec plusieurs encodeurs produisant des séquences de représentations et un ou plusieurs décodeurs réalisant les tâches ou sous-tâches nécessaires au système. Un de ces décodeurs produira un descriptif textuel de la scène.

Des directions de recherche potentielles, visant à dépasser un système de description de scènes audio par assemblage de briques existantes, pourront être discutées et affinées avec le candidat.

Principales activités

Etat de l’art, constitution d’un système de description de scènes audio par assemblage des outils existants ; Définition de la tâche, élaboration d’un corpus et d’un protocole d’évaluation ; Travail sur l’alignement entre des représentations auto-supervisées du signal de parole et des grands modèles de langage ; Entraînement faiblement supervisé du système ; Evaluation des systèmes et confiance dans les prédictions.

Compétences

Master 2 ou diplôme d’école d’ingénieur en informatique, mathématiques appliquées ou phonétique, Intérêt marqué pour la recherche appliquée, Maîtrise de l’anglais parlé et écrit, Connaissances en traitement du signal, Connaissances en apprentissage automatique de manière générale et dans les approches neuronales (deep learning) en particulier, Connaissance pratique d’outils comme Pytorch, Keras ou Scikit-learn, Expérience en traitement automatique de la parole, dont la connaissance de plateformes open-source comme Kaldi ou Speechbrain.

Références

[1] Aafaq, N., Mian, A., Liu, W., Gilani, S. Z., & Shah, M. . Video description: A survey of methods, datasets, and evaluation metrics. ACM Computing Surveys (CSUR), 52, 1-37.

[2] Hori, Chiori, Huda Alamri, Jue Wang, Gordon Wichern, Takaaki Hori, Anoop Cherian, Tim K. Marks, et al. « End-to-End Audio Visual Scene-Aware Dialog Using Multimodal Attention-Based Video Features ». In ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2352‑56. Brighton, United Kingdom: IEEE, 2019. [3] Zhang, C., & Tian, Y. (2016, December). Automatic video description generation via lstm with joint two-stream encoding. In 2016 23rd International Conference on Pattern Recognition (ICPR) (pp. 2924-2929). IEEE.

[4] Pratap, Vineel, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, et al. 2023. « Scaling Speech Technology to 1,000+ Languages ». arXiv.

Avantages

Restauration subventionnée, Transports publics remboursés partiellement, Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement), Possibilité de télétravail (2 jours par semaine) et aménagement du temps de travail, Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.), Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria), Accès à la formation professionnelle,

Rémunération

Année 1 & 2 = 2082 € bruts mensuels

Année 3 = 2190 € bruts mensuels



  • Paris, France INRIA Temps plein

    Contexte et atouts du poste Inria Défense&Sécurité (Inria D&S) was created in 2020 to federate Inria’s actions for the benefit of military forces. The PhD will be carried out within the audio processing research team of Inria D&S, under the supervision of Jean-François Bonastre and co-supervised by Raphaël Duroselle.  The automatic audio...


  • Paris 5e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : vendredi 2 juin 2023 **Informations générales**: **Intitulé de l'offre **:Doctorante ou doctorant chimie théorique (H/F)** Référence : UPR9080-ELIDUB-003 Nombre de Postes : 1 Lieu de travail : PARIS 05 Date de publication : vendredi 12 mai...

  • Doctorant (H/F)

    il y a 7 jours


    Paris 5e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : vendredi 25 août 2023 **Informations générales**: **Intitulé de l'offre **:Doctorant (H/F) - Estimation statistique de la hauteur des nuages** Référence : UMR8539-ISARIC-095 Nombre de Postes : 1 Lieu de travail : PARIS 05 Date de publication :...


  • Paris 5e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : lundi 3 juin 2024 **Informations générales**: **Intitulé de l'offre **:Doctorant - assemblage de vésicules sous l'action de Golgines (H/F)** Référence : UMR8023-FREPIN-006 Nombre de Postes : 1 Lieu de travail : PARIS 05 Date de publication : lundi...


  • Paris, France DGSE - Direction Générale de la Sécurité Extérieure Temps plein

    La Direction Générale de la Sécurité Extérieure, DGSE, recrute un technicien d’appui aux opérations audio/vidéo (H/F). Le poste est situé en région parisienne. La nationalité française est obligatoire. Domaine métier Sciences et Technologies Votre environnement de travail Au sein d’une équipe d’une dizaine de personnes, vous serez en...


  • Paris, France Altam H&R Temps plein

    Nous sommes à la recherche pour le compte de l'un de nos clients groupe international en pleine croissance, un Responsable de site Systèmes Automatisés H/F. Notre client conçoit, intègre et maintient des solutions automatisées clés en main pour les marchés de l’aéroportuaire, de l’intralogistique et du tri colis. Au sein de la Direction...

  • Doctorant (H/F)

    il y a 7 jours


    Paris 5e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : vendredi 12 mai 2023 **Informations générales**: **Intitulé de l'offre **:Doctorant (H/F) en Catalyse** Référence : UMR7197-CYRTHO-004 Nombre de Postes : 1 Lieu de travail : PARIS 05 Date de publication : vendredi 14 avril 2023 Type de contrat : CDD...

  • Médiateur doctorant F/H

    il y a 4 semaines


    Paris, France Universcience Temps plein

    Description de la missionSous lautorité du responsable de lunité, le doctorant ou la doctorante peut :Animer et faire évoluer des médiations existantes, à destination de tous les publics,Présenter et/ou adapter des animations pour des événements (fête de la science, semaine du cerveau, ) ou pour des publics spécifiques (personnes en situation de...

  • Conseiller de Vente Audio/son

    il y a 4 semaines


    Paris, France Impact Sales & Marketing Temps plein

    Entreprise: **Athéna**, filiale du groupe MARVESTING, un des leaders du Field Marketing en Europe, poursuit son développement avec les hommes et les femmes de talent qui l’accompagnent. Au service de grandes entreprises et des jeunes pousses en devenir, nous mettons en place des solutions assurant la performance commerciale et marketing...


  • Paris, France CNRS Temps plein

    Informations générales Intitulé de l'offre : Doctorant - assemblage de vésicules sous l'action de Golgines (H/F) Référence : UMR8023-FREPIN-006 Nombre de Postes : 1 Lieu de travail : PARIS 05 Date de publication : lundi 13 mai 2024 Type de contrat : CDD Doctorant/Contrat doctoral Durée du contrat : 36 mois Date de début de la thèse : 4...


  • Paris, France Altam H&R Temps plein

    Nous sommes à la recherche pour le compte de l'un de nos clients **groupe international en pleine croissance**, un R**esponsable d'Affaires Systèmes Automatisés - Aéroportuaire**. Notre **client** **conçoit**, **intègre** et **maintient des solutions automatisées** clés en main pour les marchés de l’aéroportuaire, de l’intralogistique et du tri...

  • Doctorant en Neuroscience

    il y a 4 semaines


    Paris 6e, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : jeudi 3 août 2023 **Informations générales**: **Intitulé de l'offre **:Doctorant en Neuroscience (H/F)** Référence : UMR8002-DESFRI-005 Nombre de Postes : 1 Lieu de travail : PARIS 06 Date de publication : jeudi 13 juillet 2023 Type de contrat :...

  • Poste de Doctorant

    il y a 4 semaines


    Paris 13e, France CNRS Temps plein

    Date Limite Candidature : mercredi 15 février 2023 **Informations générales**: Référence : UMR7164-KEVVEL-008 Nombre de Postes : 1 Lieu de travail : PARIS 13 Date de publication : mercredi 25 janvier 2023 Nom du responsable scientifique : Josquin Errard Type de contrat : CDD Doctorant/Contrat doctoral Durée du contrat : 36 mois Date de début de la...


  • Greater Paris Metropolitan Region, FR DGSE - Direction Générale de la Sécurité Extérieure Temps plein

    La Direction Générale de la Sécurité Extérieure, DGSE, recrute un technicien d’appui aux opérations audio/vidéo (H/F).Le poste est situé en région parisienne. La nationalité française est obligatoire.Domaine métierSciences et TechnologiesVotre environnement de travailAu sein d’une équipe d’une dizaine de personnes, vous serez en charge de...


  • Greater Paris Metropolitan Region, France DGSE - Direction Générale de la Sécurité Extérieure Temps plein

    La Direction Générale de la Sécurité Extérieure, DGSE, recrute un technicien d’appui aux opérations audio/vidéo (H/F).Le poste est situé en région parisienne. La nationalité française est obligatoire.Domaine métierSciences et TechnologiesVotre environnement de travailAu sein d’une équipe d’une dizaine de personnes, vous serez en charge de...


  • Paris, France Sony Music Entertainment France Temps plein

    Sony Music s'engage à garantir l'égalité des chances en matière d'emploi, sans tenir compte de l'origine, du sexe, des mœurs, de l'orientation sexuelle, du genre, de l'âge, de la situation de famille, de l'état de grossesse, des opinions politiques, des activités syndicales, des convictions religieuses, de l'apparence physique, du nom de famille, du...


  • Paris, France HERMES SELLIER Temps plein

    Description du poste Nous recrutons pour les équipes Services Généraux de Paris un Coordinateur Maintenance Courants Faibles Audio Vidéo h/f. Sous la responsabilité du Responsable Maintenance, vous avez pour missions, en étroite collaboration avec l’équipe Informatique, l'équipe Maintenance, les services Sécurité, Réception/Expédition et...

  • Audio Pipeline Developer

    il y a 4 semaines


    Paris 8e, France Devialet Temps plein

    Partout dans le monde, tous les jours, nos collaboratrices et collaborateurs donnent corps à l’ambition de Devialet : remettre le son au cœur de la vie de chacun.e d’entre nous. Fondée en 2007 à Paris, Devialet est devenue en peu de temps l’entreprise la plus primée au monde dans le domaine de l’acoustique, pour ses technologies comme son...


  • Paris, France STREAMWIDE Temps plein

    Entreprise : Acteur majeur depuis 2001 sur le marché des communications critiques, nous avons développé avec succès nos solutions logicielles Team on mission (missions critiques) et Team on the run (business critique) pour les secteurs public et privé. Dans le cadre de notre croissance, nous recrutons un Ingénieur(e) tests logiciels au sein de...


  • Paris, France Institut Curie Temps plein

    L'Institut Curie est un acteur majeur de la recherche et de la lutte contre le cancer. Il est constitué d'un hôpital et d'un Centre de recherche de plus de 1000 collaborateurs avec une forte représentativité ’objectif du Centre de recherche de l’institut Curie est de développer la recherche fondamentale et d’utiliser les connaissances produites...