Emplois actuels liés à Thèse transcription automatique précise de documents manuscrits H/F - GifsurYvette - CNRS

  • Thèse Financée

    il y a 4 semaines


    Gif-sur-Yvette, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : vendredi 27 septembre 2024 23:59:00 heure de Paris **Informations générales**: **Intitulé de l'offre **:Thèse financée (H/F): nouvelles méthodes d'analyse d'ARN à grande échelle pour le cancer** Référence : UMR9198-DANGAU-006 Nombre de Postes :...


  • Bry-sur-Marne, Île-de-France INA Temps plein

    MissionL'Institut National de l'Audiovisuel (INA) recrute un postdoctorant spécialisé en Traitement Automatique des Langues (TAL) pour l'analyse de transcriptions de flux audiovisuels dans le cadre du projet ANR Pantagruel.Le candidat sélectionné travaillera sur l'amélioration des approches numériques permettant d'extraire, d'indexer, de modéliser, de...


  • Gif-sur-Yvette, France CNRS Temps plein

    Cette offre est disponible dans les langues suivantes: - Français - Anglais Date Limite Candidature : mercredi 9 octobre 2024 23:59:00 heure de Paris **Informations générales**: **Intitulé de l'offre **:Thèse - Modélisation globale du cycle de l’azote au sein du système Terre (H/F)** Référence : FR636-ALERUB-053 Nombre de Postes : 1 Lieu de...


  • Gif-sur-Yvette, Île-de-France CNRS Temps plein

    Offre de thèseTitre de l'offre : Thèse - Modélisation globale du cycle de l'azote au sein du système Terre (H/F)Contexte de travail : Le poste est affecté au Laboratoire des Sciences du Climat et de l'Environnement (LSCE), une unité mixte de recherche CEA-CNRS-UVSQ dédiée à la mesure et à la modélisation des changements climatiques et des cycles...


  • Bry-sur-Marne, Île-de-France Institut national de l'audiovisuel Temps plein

    MissionL'Institut national de l'audiovisuel (INA) recrute un postdoctorant spécialisé en traitement automatique des langues (TAL) pour le projet Pantagruel. Le candidat sélectionné travaillera sur l'analyse de transcriptions de flux audiovisuels pour évaluer les modèles de langage à large échelle (LLMs).Activités principalesOrganiser une veille...

  • Thèse financée

    il y a 4 semaines


    Gif-sur-Yvette, France CNRS Temps plein

    Informations générales Intitulé de l'offre : Thèse financée (H/F): nouvelles méthodes d'analyse d'ARN à grande échelle pour le cancer Référence : UMR9198-DANGAU-006 Nombre de Postes : 1 Lieu de travail : GIF SUR YVETTE Date de publication : vendredi 6 septembre 2024 Type de contrat : CDD Doctorant/Contrat doctoral Durée du contrat : 36...


  • Gif-sur-Yvette, Île-de-France CNRS Temps plein

    Contexte de la thèseL'objectif de cette thèse est de développer une modélisation interactive du cycle de l'azote à l'échelle globale dans un modèle de système Terre. Ce travail se fera pour la période historique ainsi que pour différents scénarios futurs d'évolution socio-économique, en particulier du secteur agricole.Objectifs de la thèseLes...


  • Bry-sur-Marne, Île-de-France Institut national de l'audiovisuel Temps plein

    MissionL'Institut national de l'audiovisuel (INA) recrute un postdoctorant spécialisé en traitement automatique des langues (TAL) pour le projet Pantagruel. Le candidat sélectionné travaillera sur l'analyse de transcriptions de flux audiovisuels pour évaluer les modèles de langues à large échelle (LLMs).Activités principalesOrganiser une veille...


  • Bry-sur-Marne, Île-de-France Institut national de l'audiovisuel Temps plein

    MissionL'Institut national de l'audiovisuel (INA) recrute un postdoctorant spécialisé en traitement automatique des langues (TAL) pour le projet Pantagruel. Le candidat sélectionné travaillera sur l'analyse de transcriptions de flux audiovisuels pour évaluer les modèles de langues à grande échelle (LLMs).Activités principalesOrganiser une veille...


  • Gif-sur-Yvette, France CNRS Temps plein

    Informations générales Intitulé de l'offre : Thèse - Modélisation globale du cycle de l’azote au sein du système Terre (H/F) Référence : FR636-ALERUB-053 Nombre de Postes : 1 Lieu de travail : GIF SUR YVETTE Date de publication : mercredi 18 septembre 2024 Type de contrat : CDD Doctorant/Contrat doctoral Durée du contrat : 36 mois Date de...


  • Bry-sur-Marne, Île-de-France Institut national de l'audiovisuel Temps plein

    MissionL'Institut national de l'audiovisuel (INA) recrute un postdoctorant spécialisé en traitement automatique des langues (TAL) pour le projet Pantagruel. Le candidat sélectionné travaillera sur l'analyse de transcriptions de flux audiovisuels pour évaluer les performances de modèles de langage.Activités principalesOrganiser une veille scientifique...


  • Bry-sur-Marne, Île-de-France Institut national de l'audiovisuel Temps plein

    MissionL'Institut national de l'audiovisuel (INA) recrute un postdoctorant spécialisé en traitement automatique des langues (TAL) pour le projet Pantagruel. Le candidat sélectionné travaillera sur l'analyse de transcriptions de flux audiovisuels pour évaluer les performances des modèles de langage à large échelle (LLMs).Activités principalesLes...


  • Gif-sur-Yvette, Île-de-France CNRS Temps plein

    Informations généralesTitre de l'offre : Thèse en modélisation du cycle de l'azoteRéférence : FR636-ALERUB-053Nombre de postes : 1Lieu de travail : Gif-sur-YvetteType de contrat : CDD Doctorant/Contrat doctoralDurée du contrat : 36 moisDate de début de la thèse : 1 novembre 2024Quotité de travail : Temps completRémunération : La rémunération...


  • Gif-sur-Yvette, Île-de-France CNRS Temps plein

    Informations généralesTitre de l'offre : Thèse en modélisation du cycle de l'azoteRéférence : CNRS-LSCE-2024Nombre de postes : 1Lieu de travail : Gif-sur-YvetteDate de publication : Mercredi 18 septembre 2024Type de contrat : CDD Doctorant/Contrat doctoralDurée du contrat : 36 moisDate de début de la thèse : 1 novembre 2024Quotité de travail :...


  • Gif-sur-Yvette, Île-de-France CNRS Temps plein

    Informations généralesTitre de l'offre : Thèse de recherche sur le cycle de l'azoteRéférence : FR636-ALERUB-053Nombre de postes : 1Lieu de travail : Gif-sur-YvetteContexte de travailLe candidat sélectionné sera intégré à l'équipe de recherche du Laboratoire des Sciences du Climat et de l'Environnement (LSCE), une unité mixte de recherche...


  • Gif-sur-Yvette, Île-de-France CNRS Temps plein

    Informations Générales Titre de l'Offre : Post-doctorat en Traitement Automatique du Langage dans le Projet ERA-NET CHIST-ERA FAIRClinical (H/F) Nombre de Postes : 1 Lieu de Travail : CNRS Type de Contrat : CDD Scientifique Durée du Contrat : 16 mois Quotité de Travail : Temps Complet Rémunération : Entre 3081,33 et 3519,85 € brut...


  • Bry-sur-Marne, Île-de-France Institut national de l'audiovisuel Temps plein

    MissionL'Institut national de l'audiovisuel (INA) recrute un postdoctorant spécialisé en traitement automatique des langues (TAL) pour le projet Pantagruel. Le candidat sélectionné travaillera sur l'analyse de transcriptions de flux audiovisuels pour évaluer les modèles de langage à large échelle (LLMs).Activités principalesLes tâches principales...


  • Bry-sur-Marne, Île-de-France INA Temps plein

    MissionL'Institut National de l'Audiovisuel (INA) recrute un postdoctorant spécialisé en traitement automatique des langues (TAL) pour le projet Pantagruel. Le candidat sélectionné travaillera sur l'analyse de transcriptions de flux audiovisuels dans le cadre de l'évaluation de modèles de langage larges (LLMs).Les principales tâches du...


  • Bry-sur-Marne, Île-de-France INA Temps plein

    MissionL'INA recrute un postdoctorant spécialisé en traitement automatique des langues (TAL) pour le projet Pantagruel. Le candidat sera chargé d'analyser des transcriptions de flux audiovisuels pour évaluer les performances de modèles de langues à large échelle (LLMs).Les principales tâches seront la segmentation sémantique, la détection...


  • Bry-sur-Marne, Île-de-France INA Temps plein

    MissionL'INA recrute un postdoctorant spécialisé en traitement automatique des langues (TAL) pour le projet Pantagruel. Le candidat sera chargé d'analyser des transcriptions de flux audiovisuels pour évaluer les performances de modèles de langues à large échelle (LLMs).Les principales tâches seront la segmentation sémantique, la détection...

Thèse transcription automatique précise de documents manuscrits H/F

Il y a 3 mois


GifsurYvette, France CNRS Temps plein

Informations générales

Intitulé de l'offre : Thèse transcription automatique précise de documents manuscrits H/F
Référence : UMR9010-VERONIQUE-021
Nombre de Postes : 1
Lieu de travail : GIF SUR YVETTE
Date de publication : vendredi 5 juillet 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Mathématiques et interactions des mathématiques

Description du sujet de thèse

La préservation du patrimoine culturel est une préoccupation mondiale, et l'UNESCO a lancé des politiques de numérisation des documents historiques afin de réduire le risque de dégradation. Cette tendance à la numérisation s'étend aux registres de population, rendant des données précieuses accessibles aux généalogistes, aux historiens et aux chercheurs. De nombreux gouvernements d'Amérique latine et des Caraïbes numérisent leurs archives d'état civil et établissent des index en transcrivant certains des champs clés des documents. Il en résulte de grandes bases de données d'images de textes manuscrits partiellement transcrits.

L'objectif principal de ce projet est d'exploiter ces données pour développer des outils de transcription complète et exacte de documents officiels manuscrits structurés, tels que les registres de naissances et de décès. L'approche proposée comprend l'utilisation de techniques de reconnaissance de texte manuscrit (handwritten text recognition, HTR) pour reconnaître l'auteur du document et transcrire le texte avec précision, dans le but d'assurer l'exactitude à travers différents formats de documents dans une même langue.

Le processus d’HTR relève de la reconnaissance automatique de texte (automatic text recognition, ATR) et se concentre sur la reconstitution de la structure de document ainsi que la conversion d'image en texte. Les méthodes traditionnelles, qui consistent en des heuristiques de segmentation, d'extraction de caractéristiques et de classification, ont atteint un plafond en précision. Récemment, l'apprentissage profond a révolutionné le domaine, en particulier par les modèles basés sur l'attention. Cependant, les réseaux neuronaux profonds à haute performance nécessitent de grandes bases de données annotées et manquent en interprétabilité, ce qui entrave les efforts visant à améliorer leur précision. Le projet aborde ces questions en traitant conjointement un ensemble de documents similaires, grâce à des techniques de traitement d'images et en exploitant les similarités de structure (par exemple, les registres d'état civil d'un certain type) ou de style d'écriture (par exemple, les registres d'état civil créés par le même fonctionnaire), pour construire une chaîne d'apprentissage profond interprétable et capable d'exploiter les bases de données disponibles de registres d'état civil partiellement annotés.

La méthode proposée commence par le prétraitement des données afin de les débruiter et de réduire leur variabilité par les normalisations géométrique et dynamique de l'image. Ensuite, des réseaux neuronaux légers sont entraînés sur un ensemble d'apprentissage réduit par les méthodes développées à l'étape précédente. Pour chaque document, une première interprétation partielle est obtenue par ces réseaux neuronaux légers. Par la suite, l'analyse d'image classique est introduite dans une 'boucle vertueuse' sur chaque résultat fiable afin de créer un modèle de l’écriture manuscrite de chaque auteur à partir de l'interprétation partielle obtenue précédemment, pour atteindre un modèle bayésien précis de chaque caractère. Enfin, il sera obtenu une version de chaque document où tous les endroits nécessitant une vérification manuelle sont identifiés par leur probabilité d'erreur calculée par la méthode bayésienne.

En résumé, ce projet vise à créer des outils de transcription exacte pour les documents manuscrits structurés. Il s'aligne sur les efforts mondiaux visant à préserver le patrimoine culturel, en mettant des données précieuses à disponibilité des chercheurs. L'approche proposée s'appuie sur des techniques d'apprentissage profond dans le domaine de l'ATR et combine le traitement d'image, le prétraitement des données et les méthodes bayésiennes pour des transcriptions précises.

Contexte de travail

Le Centre Borelli est une unité mixte de recherche (UMR 9010) réunissant des chercheurs en mathématiques, en informatique et en neurosciences très investis dans les interfaces avec le domaine biomédical et le transfert industriel. Il est implanté sur plusieurs sites dont l’ENS Paris-Saclay, l’Université Paris Cité (Campus Saint-Germain-des-Prés), les hôpitaux d'Instruction des Armées l'HIA Bégin et l’HIA Percy. Le groupe de traitement d'images du Centre Borelli UMR 9010 (ancien CMLA), à l'ENS Paris- Saclay est une équipe d'une trentaine de chercheurs et enseignants-chercheurs munis autour de Gabriele Facciolo. L'équipe est reconnue internationalement par plusieurs inventions en traitement d'images mathématique; notamment la méthode de débruitage dite non-local means, la théorie de détection de structures a-contrario et plusieurs applications des équations différentielles en dérivées partielles au traitement d'images. Il a aussi fondé le journal IPOL, pionnier de la recherche reproductible en traitement d'images. Actuellement, les chercheurs du groupe travaillent étroitement en collaboration avec plusieurs partenaires industriels, sur une multitude de sujets de pointe. Cela va de l'analyse d'images satellites et modelisation en 3D (avec le CNES, , EDF, et Kayrros), du débruitage et de la super-résolution d'images et de séquences vidéo (avec DxOMark, Thales), à la synthèse de textures (Tarkett, Surys) et à la vérification d'images (AFP, SNPS).

Contraintes et risques

sans objet