Stage - Géocodage Complexe À L'aide de ModÈle de Langage

il y a 1 jour


ChampssurMarne, France IGN Temps plein

Le géocodage, soit l'attribution de coordonnées géographiques à des descriptions textuelles de lieux, est une tâche d’information retrieval essentielle pour les sciences de l'information géographique. Elle est une étape cruciale dans les chaînes de traitement et d’analyse de nombreux domaines, scientifique ou techniques, de la recherche en sciences sciences sociales aux acteurs de l’aménagement du territoire car il permet de cartographier automatiquement de grandes quantités de ressources diverses : documents, tweets, etc.
Si de nombreux outils grand-public intègrent un géocodeur (ex. Nominatim pour OpenstreetMap, Mes Adresses pour l’IGN, Google Maps), plusieurs défis persistent, en particulier le géocodage de descriptions textuelles complexes ou imprécises, la prise en compte des relations spatiales relatives (ex. « en face de... ») ou encore le géocodage de lieux historiques n’existant plus dans les bases de données actuelles.

L'avènement des (grands) modèles de langage ouvre de nouvelles perspectives pour surmonter ces obstacles en apportant une capacité de compréhension fine et contextuelle des descriptions complexes de lieux. Ce stage vise deux objectifs. D’abord, réaliser une preuve de concept de géocodeur fondé sur une approche index-retrieve-rank classique exploitant des plongements lexicaux de textes / documents. Celui-ci servira de baseline pour explorer le potentiel d’une approche émergente : la recherche d'information générative. Celle-ci est dite end-to-end car elle consiste à exploiter les capacités génératives d’un LLM pour prédire directement l’identifiant du document correspondant à une requête donnée. Outre le fait de réduire les étapes de traitement, cette approche laisse espérer des gains conséquents pour le géocodage de descriptions complexes. Le verrou principal de cette expérimentation réside dans la proposition d’identifiants de ressources (docId) encodant une connaissance géographique.

Ce stage de recherche s’insérera dans une dynamique de recherche interdisciplinaire déjà en place entre le LASTIG de l’IGN et le Centre de Recherches Historique de l’EHESS et bénéficiera d’un cadre de travail résultant d’une collaboration de longue durée entre les deux équipes de recherche.

Afin d’entraîner les modèles et évaluer les approches, le stage exploitera un jeu de données géohistorique produit par le projet ANR TopUrbi contenant les descriptions et localisations de près de 15 000 lieux de l’empire hispanique au XVIIIe siècle.

Inscrit dans une démarche de science ouverte, l’intégralité des codes et modèles seront déposés en open source/data sur des plateformes ouvertes.
Missions:

- créer une preuve de concept d’un outil de géocodage index-retrieve-rank exploitant un modèle de langage & évaluer les performances de cette approche ;
- concevoir, entraîner et évaluer un LLM de recherche d'information générative pour le géocodage, en proposant une approche de création d’identifiants de ressources « géographiques » ;
- réaliser une étude comparative des approches testées ;

étudiant ou étudiante, M2 ou ingénieur en 3ème année.

Sur le campus de l'Université Gustave Eiffel, accès facile par le RER A. Accès aux bibliothèques, au restaurant universitaire et au restaurant de l'entreprise.

sans objet



  • Champs-sur-Marne, Île-de-France Institut national de l'information géographique et forestière (IGN) Temps plein

    L'entraînement de modèles d'apprentissage profond pour l'interprétation d'images aériennes et satellitaires requiert de grandes quantités de données annotées. Toutefois, si d'importants volumes de données d'Observation de la Terre (OT) sont disponibles grâce aux satellites européens Sentinel-2 et aux programmes français d'imagerie SPOT et BDORTHO,...


  • Champs-sur-Marne, France IGN Temps plein

    Dans un contexte où la transformation humaine des écosystèmes devient un enjeu de savoir majeur, mesurer et analyser les dynamiques passées qui modèlent le territoire aide à mieux saisir celles à l’œuvre aujourd’hui. Pour saisir les dynamiques de peuplement, environnementales ou industrielles, les sciences sociales exploitent de plus en plus...


  • Champs-sur-Marne, Île-de-France Centre Scientifique et Technique du Bâtiment (CSTB) Temps plein

    La Direction Enveloppe du Bâtiment est une direction composée de plus de 90 experts répartis au sein de 3 divisions exerçant des activités de certification, d'évaluation, d'essais et de recherche sur tous les sujets liés à l'enveloppe : couverture, toiture, façade, isolation, bardage et étanchéité.Sujet du stage : réaliser l'évaluation critique...


  • Champs-sur-Marne, France Cstb Temps plein

    Éléments de contexte La consommation énergétique des bâtiments dépend de nombreux facteurs (climat, scénarios d'occupation, qualité de l'enveloppe, performance des systèmes, etc.). Ainsi, la simple donnée de la consommation annuelle ne permet pas d'évaluer objectivement la performance d'un bâtiment. Les méthodes de caractérisation de la...


  • Champs-sur-Marne, France Cstb Temps plein

    La Direction Enveloppe du Bâtiment est une direction composée de plus de 90 experts répartis au sein de 3 divisions exerçant des activités de certification, d'évaluation, d'essais et de recherche sur tous les sujets liés à l'enveloppe : couverture, toiture, façade, isolation, bardage et étanchéité. Sujet du stage : réaliser l'évaluation...


  • Champs-sur-Marne, France Cstb Temps plein

    La Direction Enveloppe du Bâtiment est une direction composée de plus de 90 experts répartis au sein de 3 divisions exerçant des activités de certification, d’évaluation, d’essais et de recherche sur tous les sujets liés à l'enveloppe : couverture, toiture, façade, isolation, bardage et étanchéité. Sujet du stage : réaliser l'évaluation...


  • Champs-sur-Marne, Île-de-France Institut national de l'information géographique et forestière (IGN) Temps plein

    En janvier 2019, le Gouvernement français a mis en place le Grand Débat national (GDN) afin de recueillir les doléances de l'ensemble de la population, comme une des réponses au mouvement des Gilets jaunes. Deux modalités de contributions ont été proposées : des cahiers papier ouverts en mairie d'expression libre sans consignes de thème, nommés les...


  • Champs-sur-Marne, Île-de-France ECOLE DES PONTS PARISTECH Temps plein

    Structure d'accueilLe Laboratoire Ville Mobilité Transport (LVMT, ), créé en 2003, est implanté à Champs-sur-Marne, sur le Campus de la Cité Descartes. Le LVMT est le fruit d'un partenariat entre deux établissements de recherche et d'enseignement supérieur reconnus pour leurs compétences dans le secteur de l'aménagement et des transports : l'École...


  • Champs-sur-Marne, France Université Gustave Eiffel - Site de Marne-la-Vallée Temps plein

    **Conception d’un modulateur THz large bande à base de graphène assistée par apprentissage automatique**: - Réf **ABG-127712** - Stage master 2 / Ingénieur - Durée 6 mois - Salaire net mensuel 600 euro - 23/12/2024 - Université Gustave Eiffel - Site de Marne-la-Vallée - Lieu de travail- Champs sur Marne Ile-de-France France - Champs scientifiques-...


  • Neuilly-sur-Seine, Hauts-de-Seine, France MBDA France Temps plein

    Au sein de la Direction Engineering, vous êtes intégré(e) au service « Études et Architecture Fonctionnelle » en charge de concevoir et d’intégrer des systèmes de combat et d’autoprotection embarqués au sein des aéronefs.Rejoignez la direction qui soutient nos programmes dans la conduite des activités d’ingénierie et des essais, qui met en...