Optimisation Des Modèles de Langage
il y a 1 jour
**Contexte du stage**:
Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique Paris-Saclay, vous prendrez une part active dans les travaux de recherche et développements au sein d’une recherche exploratoire qui s’intéresse à l’amélioration des modèles de langage en s’appuyant sur le feedback de l’humain.
Vous serez encadré par des ingénieurs-chercheurs SystemX du domaine Science des données et IA. Vous travaillerez au sein d’un projet de recherche exploratoire SystemX en partenariat avec le Centre de Recherche en Informatique de Lens (CRIL). Vous aurez également des interactions régulières avec les équipes et les groupes de travail sur le sujet porté par cette recherche exploratoire.
**Présentation du sujet**:
**Contexte**
Les grands modèles de langage (LLM) tels que GPT-4 ont révolutionné le domaine de l’intelligence artificielle en offrant des capacités impressionnantes pour comprendre et générer du texte. Cependant, ces modèles présentent des limitations en termes de précision factuelle et de mise à jour des informations. Ils peuvent être sujets à des phénomènes d’hallucination qui les rendent difficilement exploitables sans intervention humaine pour vérifier la pertinence et la précision des résultats générés. L’intégration de techniques de génération augmentée par récupération (RAG) et l’apprentissage renforcé par retour d’information de l’humain (**RLHF-Reinforcement Learning with Human Feedback**) offrent des solutions prometteuses pour surmonter ces défis et peuvent contribuer à l’atténuation des effets d’hallucination et de production incohérente de ces modèles.
**Objectif du stage**
Ce stage vise à explorer et à implémenter des techniques avancées telles que la génération augmentée par récupération et l’apprentissage renforcé par retour d’information de l’humain pour améliorer la précision et la pertinence des modèles LLM.
Vos **missions** pour ce stage seront les suivantes:
- **Étude de la littérature** : Réaliser une revue des travaux de recherche existants sur les techniques RLHF appliquées aux modèles de langage. Comprendre les mécanismes par lesquels ces techniques peuvent réduire les hallucinations et améliorer la cohérence des modèles LLM.
- **Développement méthodologique**: Proposer et développer une approche pour intégrer le feedback humain dans le processus de fine-tuning des LLM, en utilisant des techniques de RLHF.
- **Implémentation et tests**: Mettre en œuvre un pipeline RLHF pour un modèle de langage pré-entraîné, incluant les étapes de raffinement, d’entrainement du modèle de récompense, et de ré-raffinement.
- **Évaluation des performances**: Évaluer les performances du modèle affiné à l’aide de métriques quantitatives (perplexité, ROUGE, BLEU, BERTScore ) et qualitatives (évaluation humaine, tests de sécurité et d’éthique) sur des jeux de données réels.
- **Analyse des résultats**: Analyser les sorties du modèle dans le but d’identifier les améliorations en termes de précision, de pertinence, et de réduction d’hallucination.
- **Documentation **:Rédiger un rapport détaillé des méthodes, expériences et résultats obtenus pour faciliter la reproduction des travaux.
**Références**
[1] Yao, Yifan, et al. « A survey on large language model (llm) security and privacy: The good, the bad, and the ugly. » _High-Confidence Computing_ (2024): 100211.
[2] Fan, Wenqi, et al. « A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models. » _Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining_. 2024.
[3] Cai, Zefan, Baobao Chang, and Wenjuan Han. « Humanin-the-Loop through Chain-of-Thought. » _arXiv preprint arXiv:2306.07932_ (2023).
[4] Zhang, Ruichen, et al. « Interactive AI with retrieval-augmented generation for next generation networking. » _IEEE Network_ (2024).
[5] Dai, Shih-Chieh, Aiping Xiong, and Lun-Wei Ku. « LLM-in-the-loop: Leveraging large language model for thematic analysis. » _arXiv preprint arXiv:2310.15100_ (2023).
[6] LEE, Harrison, PHATALE, Samrat, MANSOOR, Hassan, _et al._ RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. In : _Forty-first International Conference on Machine Learning_.
[7] Afzal, Anum, et al. « Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop. » _arXiv preprint arXiv:2407.05925_ (2024).
[8] Wang, Xi, et al. « Adaptive Retrieval-Augmented Generation for Conversational Systems. » _arXiv preprint arXiv:2407.21712_ (2024).
[9] Freitas, Bruno Amaral Teixeira, and Roberto de Alencar Lotufo. « Retail-GPT: leveraging Retrieval Augmented Generation (RAG) for building E-commerce Chat Assistants. » _arXiv preprint arXiv:2408.08925_ (2024).
[10] Kulkarni, Mandar, et al. « Reinforcement Learning for Optimizing RAG fo
-
Optimisation Topologique en Mécanique Des Fluides
il y a 1 jour
Gif-sur-Yvette, France IRT SystemX Temps plein**Contexte du stage**: Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs...
-
Stage - Géocodage Complexe À L'aide de ModÈle de Langage
il y a 1 semaine
Champs-sur-Marne, France IGN Temps pleinLe géocodage, soit l'attribution de coordonnées géographiques à des descriptions textuelles de lieux, est une tâche d’information retrieval essentielle pour les sciences de l'information géographique. Elle est une étape cruciale dans les chaînes de traitement et d’analyse de nombreux domaines, scientifique ou techniques, de la recherche en...
-
Gif-sur-Yvette, France CEA Temps pleinModélisation de matériaux architecturées innovants en acier et alliage à mémoire de forme. Description du poste Mécanique et thermique Intitulé de l'offre Modélisation de matériaux architecturées innovants en acier et alliage à mémoire de forme. Sujet de stage Ce stage s'inscrit dans le cadre d'une thèse sur la fabrication additive de matériaux...
-
Stage BAC+5 matériaux et IA H/F
il y a 4 jours
Gif-sur-Yvette, France CEA Temps pleinDescription de l’offre Le procédé de fusion laser sur lit de poudre (LPBF) connaît aujourd’hui un fort essor grâce à sa capacité à produire des géométries complexes. Cependant, sa maîtrise reste limitée par une optimisation paramétrique longue, des instabilités du procédé et un manque d’outils numériques fiables pour prédire ou...
-
Doctorant (F/H) Conception Assistée Et
il y a 4 jours
Gif-sur-Yvette, France Inria Temps plein**Type de contrat **:CDD **Niveau de diplôme exigé **:Bac + 5 ou équivalent **Fonction **:Doctorant **A propos du centre ou de la direction fonctionnelle**: Le centre de recherche Inria de Saclay a été créé en 2008. Sa dynamique s’inscrit dans le développement du plateau de Saclay, en partenariat étroit d’une part avec le pôle de...
-
Gif-sur-Yvette, Île-de-France CEA Temps pleinInformations générales Entité de rattachement Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un...
-
Stage BAC+5 matériaux et IA H/F
il y a 2 jours
Gif-sur-Yvette, France Cea Temps pleinLe procédé de fusion laser sur lit de poudre (LPBF) connaît aujourd’hui un fort essor grâce à sa capacité à produire des géométries complexes. Cependant, sa maîtrise reste limitée par une optimisation paramétrique longue, des instabilités du procédé et un manque d’outils numériques fiables pour prédire ou contrôler la fabrication. Dans...
-
CDD Ingénieur en développement logiciel “Connectomist
il y a 2 heures
Gif-sur-Yvette, France France Life Imaging Temps pleinDate de l'annonce : lundi 26 janvier 2015Intitulé du poste : CDD Ingénieur en développement logiciel “Connectomist & microstructure”Type de structure : CEA NeuroSpinContexte et mission : Le centre NeuroSpin est un centre de neuroimagerie pariant sur l'utilisation des très hauts champs magnétiques pour décoder la structure et le fonctionnement du...
-
Docteur R&d
il y a 2 semaines
Gif-sur-Yvette, France RD2 CONSEIL Temps pleinDescriptif du poste Dans le cadre de son développement, l’entreprise souhaite intégrer une expertise R&D par le recrutement d’un(e) Docteur R&D (H/F) en Intelligence Artificielle. Rattaché(e) au fondateur de l’entreprise, vos missions seront les suivantes: - Développement du logiciel (Python) qui permet notamment de contrôler l’IA du robot, et...
-
Stagiaire (H/F)
il y a 2 semaines
Gif-sur-Yvette, France CEA Temps pleinDescription du poste **Domaine**: - Instrumentation, métrologie et contrôle **Contrat**: - Stage **Intitulé de l'offre**: - STAGIAIRE H/F **Sujet de stage**: - Mise en place et optimisation d'un système de mesure de température par pyrométrie infrarouge (optique multi-spectrale) **Durée du contrat (en mois)**: - 6 **Description de...