Stage en Augmentation de Données Textuelles à L’aide de Grands Modèles de Langage
il y a 3 semaines
**Type de contrat**: Stage
**Niveau de diplôme exigé**: Bac + 3 ou équivalent
**Fonction**: Stagiaire de la recherche
**Contexte et atouts du poste**:
Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et forces de l’intérieur. Le stage sera réalisée au sein de l’équipe de recherche en TALN de Inria D&S en partenariat avec l’Agence Ministérielle pour l’IA de Défense (AMIAD), sous la direction de Pauline Soutrenon et Lucie Chasseur Ingénieures NLP (Mission D&S Inria, Grenoble) ainsi que Nihel Kooli Experte NLP et IA (Agence Ministérielle pour l’IA de Défense (AMIAD, Rennes)).
Dans le domaine du Traitement Automatique des Langues, le développement de systèmes performants repose fortement sur des jeux de données annotées de haute qualité. Ces annotations, qui peuvent inclure des étiquettes de catégories, des entités nommées ou des relations syntaxiques, sont essentielles pour permettre aux modèles d’apprentissage automatique de capturer les subtilités du langage humain. Cependant, constituer ces jeux de données est une tâche complexe, chronophage et coûteuse, nécessitant une expertise linguistique, une standardisation rigoureuse et des efforts considérables pour garantir la cohérence des annotations. Ces contraintes rendent l’accès à des données de qualité particulièrement difficile, notamment pour les langues peu représentées ou les domaines spécialisés comme celui de la défense.
Cette rareté des données annotées constitue une problématique majeure dans le domaine du Traitement Automatique des Langues. Quelle que soit la tâche, l’efficacité des approches repose sur la disponibilité des données annotées. Dans la plupart des cas, ces données sont limitées ou parfois même inexistantes, ce qui représente un frein important au développement de solutions robustes.
L’émergence des Grands Modèles de Langage (LLM), tels que ChatGPT, Llama ou Mistral, offre une opportunité de générer, enrichir ou diversifier des jeux de données de manière automatisée tout en réduisant les coûts et les délais associés à leur production.
Ce stage s’inscrit dans cette perspective et a pour objectif d’explorer les capacités des LLM pour répondre aux besoins critiques de données annotées.
**Mission confiée**:
Ce projet s’inscrit dans la continuité de notre participation au défi TextMine 2025 pour lequel nous avons mené des travaux d’augmentation de données du jeu de données fourni avec un LLM afin d’optimiser les performances d’un modèle d’extraction de relations. Ces travaux ont produit des résultats prometteurs qui nécessitent d’être approfondis.
Dans le cadre de ce stage, l’augmentation de données sera appliquée à un corpus de documents textuels issus d’informations en direct du journal Le Monde. Ces news ont été produites sur la période initiale de la guerre en Ukraine entre février et mars 2022. L'accumulation de données journalistiques depuis le début de la guerre en Ukraine offre l'opportunité de constituer de nouveaux corpus où le vocabulaire spécialisé de la défense est omniprésent. Un premier travail d’annotation du corpus a été effectué en suivant un guide d'annotation spécifiquement conçu pour ce projet.
La première partie du stage consistera à prendre connaissances des données. Des tests pourront ensuite être réalisés pour sélectionner le ou les LLM les plus pertinents pour cette tâche. Puis, la mission consistera à définir une stratégie d’augmentation (prompt(s) à utiliser, processus pour garantir la qualité et la cohérence des données générées) et à mettre en place la pipeline d’augmentation de données (en mettant l’accent sur le traitement et le formatage des réponses générées par le LLM). Enfin, une évaluation de l’impact des données générées pourra être réalisée de manière à vérifier la qualité des annotations et à identifier les biais et les cas limites.
**Principales activités**:
- Analyser les besoins et se familiariser avec les données
- Tester et sélectionner le(s) LLM le(s) plus pertinent(s) pour cette tâche
- Définir une stratégie d’augmentation de données
- Mettre en place la pipeline d’augmentation de données
- Évaluer l’impact des données générées
- Documenter et présenter les résultats
**Compétences**:
- Maîtrise du français écrit et parlé
- Connaissances solides en linguistique et en traitement automatique des langues
- Connaissance de Python
- Familiarité avec les LLM et leurs API
- Une connaissance d’outil d’annotation, comme Label studio, sera appréciée
**Références**
Bogdanov, S., Constantin, A., Bernard, T., Crabb'e, B., & Bernard, E. (2024, February). NuNER: Entity Recognition Encoder Pre-training via LLM-Annotated Data. _In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing._
Dai, X., & Adel, H. (2020, October). An Analysis of Simple Data Augmentation for Named Entity Recognition. _In Proceedings of the 28th International Conference on Computational Linguistics._
Ye
-
Animateurs Langage en Grande Section
Il y a 2 mois
Grenoble, France ASSOCIATION COUP DE POUCE Temps plein**Fiche de poste** **Animateur Coup de Pouce Cla (langage en Grande Section)** **Contexte** Dans le cadre de la Cité Educative de Grenoble et du projet Ambition Jeunesse, l’Association Coup de Pouce met en œuvre l’action Coup de Pouce Cla : Clubs de langage. Cette action est une activité péri-familiale et périscolaire destinée à des enfants de...
-
Stage - Modélisation de Micro-batteries Pour
Il y a 3 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Technologies micro et nano **Contrat**: - Stage **Intitulé de l'offre**: - Stage - Modélisation de micro-batteries pour prédiction de défaillance par apprentissage automatique H/F **Sujet de stage**: - Le CEA-LETI, leader dans le développement et la fabrication de batteries intégrées à l'état solide,...
-
Stage - Consolidation de La Modélisation
Il y a 3 mois
Grenoble, France EDF Temps pleinMise en ligne le 09/10/2024 Principales caractéristiques de l'offre d'emploi - Type de contrat: - Stage - Niveau de formation: - BAC +4 / BAC +5 - Expérience: - Débutant - Spécialité(s): - Ingénierie / Expertise / Recherche - Pays / Région: - France / Auvergne-Rhône-Alpes - Département: - Isère (38) - Ville: - GRENOBLE - EDF est labellisé...
-
Stage Bac+5 Modèle de Combustion
Il y a 3 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Mathématiques, information scientifique, logiciel **Contrat**: - Stage **Intitulé de l'offre**: - Stage BAC+5 Modèle de combustion H/F **Sujet de stage**: - Modèle cinétique pour la combustion des gaz d'emballement thermique de batterie **Durée du contrat (en mois)**: - 6 **Description de l'offre**: -...
-
Stage - Modélisation Thermoélectrique de Diodes
Il y a 4 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Optique et optronique **Contrat**: - Stage **Intitulé de l'offre**: - Stage - Modélisation thermoélectrique de diodes laser intégrées en photonique sur silicium. H/F **Sujet de stage**: - Modélisation thermoélectrique de diodes laser intégrées en photonique sur silicium. **Durée du contrat (en...
-
Stage - Modélisation Et Simulation Des Mémoires
Il y a 3 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Technologies micro et nano **Contrat**: - Stage **Intitulé de l'offre**: - Stage - Modélisation et simulation des mémoires ferroélectriques pour des systèmes économes en énergie **Sujet de stage**: - De nos jours, la production de données croît de manière exponentielle en raison de l'utilisation massive...
-
Stage - Modélisation Acoustique de Tours
Il y a 3 mois
Grenoble, France EDF Temps pleinMise en ligne le 09/10/2024 Principales caractéristiques de l'offre d'emploi - Type de contrat: - Stage - Niveau de formation: - BAC +4 / BAC +5 - Expérience: - Débutant - Spécialité(s): - Ingénierie / Expertise / Recherche - Pays / Région: - France / Auvergne-Rhône-Alpes - Département: - Isère (38) - Ville: - GRENOBLE - EDF est labellisé...
-
Stage - Détection de Défauts à L'aide de
Il y a 3 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Mathématiques, information scientifique, logiciel **Contrat**: - Stage **Intitulé de l'offre**: - Stage - Détection de défauts à l'aide de réseaux de neurones informés par la physique H/F **Sujet de stage**: - Dans un contexte en constante évolution vous travaillerez sur le développement d'un réseau de...
-
Chargé D'étude Et Modélisation Hydraulique Eau
Il y a 2 mois
Grenoble, France Métropole de Grenoble Temps pleinEntre ville, montagne et campagne, le territoire de Grenoble-Alpes Métropole rassemble 450 000 habitants et 49 communes aux profils diversifiés. Les indicateurs d'aménagement durable la situent dans le peloton de tête des métropoles françaises car son urbanisation compacte lui permet de limiter les déplacements motorisés et de préserver son...
-
Stage - Modélisation & Prévention de Situations
Il y a 3 mois
Grenoble, France EDF Temps pleinMise en ligne le 01/10/2024 Principales caractéristiques de l'offre d'emploi - Type de contrat: - Stage - Niveau de formation: - BAC +4 / BAC +5 - Expérience: - Débutant - Spécialité(s): - Electricité - Pays / Région: - France / Auvergne-Rhône-Alpes - Département: - Isère (38) - Ville: - GRENOBLE - EDF est labellisé Happy...
-
Stage : Amélioration Du Calcul D'incertitude Pour
Il y a 3 mois
Grenoble, France EDF Temps pleinMise en ligne le 08/10/2024 Principales caractéristiques de l'offre d'emploi - Type de contrat: - Stage - Niveau de formation: - BAC +4 / BAC +5 - Expérience: - Débutant - Spécialité(s): - Ingénierie / Expertise / Recherche - Pays / Région: - France / Auvergne-Rhône-Alpes - Département: - Isère (38) - Ville: - GRENOBLE - EDF est labellisé...
-
Stage Bac+5 Analyse de Données de Flotte de
Il y a 3 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Mathématiques, information scientifique, logiciel **Contrat**: - Stage **Intitulé de l'offre**: - Stage BAC+5 Analyse de données de flotte de véhicules électriques H/F **Sujet de stage**: - Analyse de données de flotte de véhicules électriques: estimation des états de santé et identification des facteurs...
-
Ingénieur en Modélisation d'Atelier
il y a 3 semaines
Grenoble, Auvergne-Rhône-Alpes, France EVIDEN Temps pleinÀ Eviden, nous recherchons un ingénieur pour participer à la conception et au développement d'un système de modélisation d'atelier. Le poste consiste à travailler sur la création d'un environnement de simulation qui permettra aux opérateurs de conduire des procédés industriels de manière plus efficace.L'objectif du stage est de réaliser une...
-
Concepteur de Modélisation Industrielle
il y a 3 semaines
Grenoble, Auvergne-Rhône-Alpes, France EVIDEN Temps pleinContextePour répondre à l'urgence climatique, le nucléaire est une énergie d'avenir. Nous sommes spécialisés dans les solutions de contrôle-commande pour le nucléaire et nous recherchons un stagiaire pour travailler sur la conception et le maquettage d'un atelier de modélisation.**Tâches du Stage*** Analyse des modèles existants sur le système en...
-
Stage - Bac+5 - Fabrication Additive (H/F)
Il y a 3 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Matériaux, physique du solide **Contrat**: - Stage **Intitulé de l'offre**: - Stage - Bac+5 - Fabrication additive H/F **Sujet de stage**: - Traitement de données thermiques pour le procédé de fusion laser sur lit de poudre. **Durée du contrat (en mois)**: - 6 mois **Description de l'offre**: Le...
-
Stage Bac+5 Modélisation Du Fonctionnement D'un
Il y a 2 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Thermohydraulique et mécanique des fluides **Contrat**: - Stage **Intitulé de l'offre**: - Stage BAC+5 Modélisation du fonctionnement d'un échangeur de chaleur à Caloducs H/F **Sujet de stage**: - Modélisation du fonctionnement d'un échangeur de chaleur à Caloducs pour la valorisation des rejets thermiques...
-
Stage - Développement D'un Modèle Générique de
Il y a 2 mois
Grenoble, France STMicroelectronics Temps pleinChez ST, nous croyons à la puissance de la technologie pour stimuler l'innovation et avoir un impact positif sur les personnes, les entreprises et la société. Nous sommes une entreprise mondiale de semi-conducteurs, et notre technologie avancée ainsi que nos puces constituent la partie invisible du monde dans lequel nous vivons aujourd'hui. Lorsque vous...
-
Stage Bac+5 Modélisation Batterie
Il y a 3 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Mécanique et thermique **Contrat**: - Stage **Intitulé de l'offre**: - Stage BAC+5 Modélisation batterie H/F **Sujet de stage**: - L'emballement thermique, phénomène multiphysique, est simulé par des outils complexes et coûteux. On cherche à développer un modèle 3D simplifié. **Durée du contrat (en...
-
Stage - Caractérisation Et Modélisation de Lasers
Il y a 4 mois
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Optique et optronique **Contrat**: - Stage **Intitulé de l'offre**: - Stage - Caractérisation et modélisation de lasers pulsés intégrés sur silicium H/F **Sujet de stage**: - Caractérisation et modélisation de lasers pulsés intégrés sur silicium **Durée du contrat (en mois)**: - 5-6 **Description de...
-
Ingénieur en Modélisation Avancée
il y a 2 semaines
Grenoble, Auvergne-Rhône-Alpes, France EVIDEN Temps pleinContexteL'objectif principal du stage est de concevoir et de mettre en œuvre un modèle de conduite d'une usine de traitement des eaux. Ce projet nécessite une approche multidisciplinaire, prenant en compte les aspects techniques, organisationnels et environnementaux. Vous travaillerez étroitement avec l'équipe de développement pour analyser les...