Recherche D'information Générative Par Grands Modèles de Langues Autorégressifs.
il y a 5 jours
**Recherche d'Information Générative par Grands Modèles de Langues Autorégressifs. // Generative Information Retrieval using Autoregressive Large Language Models.**:
- Réf **ABG-132179**
**ADUM-66236**
- Sujet de Thèse
- 24/05/2025
- Université Grenoble Alpes
- Lieu de travail- Saint-Martin-d'Hères - Auvergne-Rhône-Alpes - France
- Intitulé du sujet- Recherche d'Information Générative par Grands Modèles de Langues Autorégressifs. // Generative Information Retrieval using Autoregressive Large Language Models.
- Champs scientifiques- Informatique
- Mots clés- Recherche d'information Générative, Grands Modèles de Langues, Apprentissage
Generative Information Retrieval, Large Language Models, Learning
**Description du sujet**:
- La recherche d'information étudie les manières de retrouver, parmi un grand corpus de documents, ceux qui sont les plus pertinents pour un besoin d'information formulé par un utilisateur [1].
Depuis les années 2010, des approches à base d'apprentissage de réseaux de neurones ont été proposées pour effectuer de la recherche d'information [2,3,4]. Elles souffraient toutefois de l'absence de représentation sémantique fine des documents et des requêtes.
Depuis l'avènement de BERT [7], premier modèle encodeur à base d'attention, de nombreuses propositions en recherche d'information [4,5] ont utilisé des représentations “denses' des parties de mots (tokens) pour représenter une sémantique plus fine des documents. D'autres approches [8, 9] des apprentissages sur des modèles “sequence to sequence”, qui génèrent des textes en sortie à partir de textes fournis en entrée. Ces modèles ont également donné de bons résultats, mais n'utilisent pas toutes les capacités de génération des LLM et reposent encore sur des approches classiques de recherche d'information.
On peut alors se demander [10] si les modèles de langues génératifs pourraient réaliser eux-mêmes la tâche de recherche d'information, en générant directement les identifiants de documents pertinents en réponse à une requête. On se situe alors dans le domaine appelé 'Generative IR' (GenIR). Il existe deux grandes familles d'architectures pour les grands modèles de langues génératifs : les encodeurs-décodeurs (comme T5), et les décodeurs-seuls (comme LLama, GPT,...). Les modèles décodeurs-seuls (basés sur des apprentissage autorégressifs) sont ceux des modèles de Chat populaires que nous connaissons comme ChatGPT. Ces modèles présentent l'avantage de ne pas nécessiter d'encoder les textes en entrée (avec des nombreux calculs d'attention), et font beaucoup moins de calculs en inférence.
Tous les travaux existants en GenIR [11,12] reposent sur des modèles encodeurs-décodeurs. Ils sont incompatibles directement avec les modèles décodeurs-seuls actuels. Des systèmes de GenIR intégrés à des modèles décodeurs-seuls seraient potentiellement capables de permettre de générer conjointement du texte et des références à des documents pertinents.
Cette thèse propose des approches efficaces de GenIR à base d'architectures décodeurs-seuls, nécessitant peu ou pas de méta-données, utilisables dans de nombreux contextes, afin de générer du texte et des identifiants de documents de manière conjointe. Les problèmes à résoudre pour aller vers de tels modèles décodeurs-seuls sont:
1. Comme les modèles proposés génèrent du texte, et que classiquement les identifiants de documents ne sont pas textuels, il faut générer des identifiants (non-ambigus [13]) textuels. La question du choix de ces identifiants est très ouverte. Pour des modèles décodeurs-seuls, il n'existe pas de réponse dans la littérature.
2. Quel “fine-tuning” réaliser sur de tels modèles GenIR à base de décodeurs-seuls ? Les systèmes GenIR à encodeurs-décodeurs nécessitent beaucoup de fine-tuning sur de nombreux exemples. Ce travail vise à déterminer dans quelle mesure un apprentissage plus léger est suffisant.
3. Comment modifier des modèles décodeurs-seuls pour permettre d'obtenir des résultats de qualité, de manière conjointe avec le texte ''non GenIR'' généré par ailleurs ? Cette question reste à explorer.
4. Comment définir des systèmes GenIR décodeurs-seuls capables de s'adapter à de nouveaux corpus [14] ou à des évolutions de corpus sera également explorée dans ce travail.
Nous serons alors capables de fournir de nouveaux modèles génératifs, décodeurs-seuls pour la Recherche d'Information Générative, et d'étudier en détail leurs caractéristiques et limites.
Ce travail fait suite à une étude préliminaire réalisée en 2025 en M2 par Romain Alves, qui a montré la faisabilité d'approches GenIR décodeurs-seuls.
Information retrieval studies ways of retrieving, among a large corpus of documents, the documents that are most relevant to an information need expressed by a user [1].
Since the 2010s, neural network learning-based approaches have been proposed to perform information retrieval [2,3,4]. However, they suffered from the lack of precise semantic representation of documents and queries.
-
Chercheur (Post-doctoral) en Informatique (F/H)
il y a 3 jours
Saint-Martin-d'Hères, France Université Grenoble Alpes Temps pleinType de recrutement: Poste ouvert en CDD - Quotité de travail: 100% - Durée du contrat: Du 01 juillet 2025 au 30 juin 2026 - Localisation: LIG 700 Avenue centrale 38400 Saint Martin d'Hères Présentation de la structure Vous aurez accès à de grands ensembles de données, à des serveurs GPU, à des moyens pour les missions ainsi qu'aux activités...
-
Data Scientist GenAI
il y a 5 jours
Saint-Rémy-l'Honoré, France ENERGIE RECRUTE Temps pleinUne entreprise innovante recherche un Data Scientist spécialisé en Intelligence Artificielle Générative pour concevoir et industrialiser des solutions basées sur les Large Language Models. Les missions comprennent le développement de modèles, la prototypage de solutions et la gestion de connaissances. Le candidat idéal aura une formation en Data...
-
Ingénieur Recherche Qualité de l'Air Intérieur
il y a 1 jour
Saint-Martin-d'Hères, France Cstb Temps pleinLa Direction Santé, Ambiances et Mobilités recherche un(e) stagiaire ingénieur(e) qualité de l'air intérieur pour une durée de 6 mois. Ce stage est basé à Grenoble. La qualité de l'air intérieur dépend de nombreuses sources d'émission telles que les matériaux de construction, les produits d'entretien, la cuisson ou encore les activités des...
-
Saint-Martin-d'Hères, France UNIVERSITE GRENOBLE ALPES Temps pleinOffre n° 201CPXG - Ingénieur / Ingénieure de recherche en intelligence artificielle (H/F) Présentation de la structure : L'Unité d'Appui et de Recherche (UAR) GRICAD (Grenoble Alpes Recherche - Infrastructure de Calcul Intensif et de Données), créée au 1er janvier 2016, est une structure unique à l'échelle nationale par le périmètre de ses...
-
Saint-Denis, France EDF Temps pleinMise en ligne le 2025-10-15 Type de contrat : Stage Niveau de formation : BAC +4 / BAC +5 Expérience : Débutant Spécialité(s) : Gestion et valorisation de la donnée Pays / Région : France / Ile-de-France Département : Seine Saint-Denis (93) Ville : 1 place pleyel saint denis **Description de l'offre**: Au sein d'EDF, la Direction Optimisation...
-
Stagiaire Recherche Impact de la Chaleur sur la Qualité du Sommeil H/F
il y a 2 semaines
Saint-Martin-d'Hères, France Cstb Temps pleinContexte/missions : Dans un contexte de changement climatique, l'augmentation des vagues de chaleur affecte les environnements intérieurs, le confort thermique et la qualité du sommeil. En lien avec le PNACC et la feuille de route nationale sur le sommeil publiés en 2025, ce stage traitera de l'impact des fortes chaleurs sur la qualité de sommeil des...
-
Animateur(Trice) Point Information Jeunesse
il y a 3 jours
Saint-Martin-d'Hères, France Ville de Saint-Martin-d'Hères Temps pleinLa commune de Saint-Martin-d’Hères est la 2ème ville du département de l’Isère (38500 habitants). Elle est au cœur du développement de nombreux projets et accueille le Domaine Universitaire avec près de 50 000 étudiants et employés. Ville dynamique, innovante et solidaire, attachée à un service public de qualité, efficiente et ancrée dans la...
-
Chercheur (Post-doctoral) en Data Science (F/H)
il y a 3 jours
Saint-Martin-d'Hères, France Université Grenoble Alpes Temps pleinType de recrutement: Poste ouvert en CDD - Quotité de travail: 100% - Durée du contrat: Du 01 novembre 2025 au 31 octobre 2027 - Localisation: CRJ Bât. Droit B 1133 Rue des résidences 38400 Saint Martin d'Hères Présentation de la structure Vous aurez accès à de grands ensembles de données, à des serveurs GPU, à des moyens pour les missions ainsi...
-
Saint-Martin-d'Hères, France Université Grenoble Alpes Temps plein**Critéres d'importance supervisés pour l'apprentissage statistique à grande échelle // Supervised importance criteria for large-scale learning**: - Réf **ABG-132258** **ADUM-66109** - Sujet de Thèse - 28/05/2025 - Université Grenoble Alpes - Lieu de travail- Saint Martin d'Hères cedex - Auvergne-Rhône-Alpes - France - Intitulé du sujet- Critéres...
-
Montbonnot-Saint-Martin, France ALPAO Temps plein**STAGE - Amélioration du modèle de miroir déformable** **grâce à la caractérisation du matériel F/H** Montbonnot-Saint-Martin, France - Stage (5 mois) **L’ENTREPRISE** **BERTIN ALPAO**, filiale du groupe **BERTIN TECHNOLOGIES**, est une entreprise de haute technologie reconnue pour son innovation et **son expertise en optique adaptative**...