Stage : Annotation Automatique de Relations Sémantiques Par Grands Modèles de Langage (Llm)
il y a 5 jours
**Type de contrat**: Convention de stage
**Niveau de diplôme exigé**: Bac + 3 ou équivalent
**Fonction**: Stagiaire des fonctions support
**Contexte et atouts du poste**:
Le ou la stagiaire travaillera au sein d’Inria Défense & Sécurité, créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et du ministère de l’Intérieur. Le stage se déroulera au sein du pôle Données, sous la direction de Pauline Soutrenon et de Lucie Bader (ingénieures TAL/NLP).
Le stage s’inscrit dans le cadre du projet CORALIA (CORpus, Annotation et LLM : Impacts et Ajustements), qui vise à comparer l’annotation humaine à celle d’une IA générative, et qui prolonge les travaux amorcés dans l'un des projets Inria Défense et Sécurité. Ce dernier a abouti à la constitution d’un corpus de données textuelles annotées manuellement d’après un guide d’annotation spécifiquement conçu pour ce projet. Ces données, issues de documents textuels produits par le journal Le Monde, concernent la guerre en Ukraine entre février et mars 2022. L’accumulation de documents textuels journalistiques en lien avec ce conflit offre l’opportunité de constituer de nouveaux corpus où le vocabulaire spécialisé de la défense est omniprésent.
Les données comprennent à la fois des entités nommées et des relations sémantiques d’intérêt, et constituent une ressource rare et précieuse pour l’entraînement et l’évaluation de modèles d’apprentissage automatique. En effet, le développement de systèmes performants repose fortement sur des jeux de données annotées de haute qualité. Ces annotations, qui peuvent inclure des étiquettes de catégories, des entités nommées ou des relations syntaxiques, sont essentielles pour permettre aux modèles de capturer les subtilités du langage humain.
L’annotation manuelle est toutefois une tâche complexe, chronophage et coûteuse, et qui nécessite une expertise linguistique, une standardisation rigoureuse et des efforts considérables pour garantir la cohérence des annotations. Le manque de données annotées de qualité, surtout dans les domaines spécialisés comme la défense ou pour les langues peu dotées, constitue une problématique majeure dans le domaine du TAL. L’émergence des Grands Modèles de Langage (LLM), tels que GPT, LLaMA ou Mistral, offre aujourd’hui l’opportunité de compléter le travail des annotateurs humains grâce à des méthodes de prompt engineering adaptées.
Le projet CORALIA s’inscrit dans une démarche de continuité qui s’appuie à la fois:
- sur notre participation au défi TextMine 2025 pour lequel nous avons mené des travaux d’augmentation de données avec un LLM afin d’optimiser les performances d’un modèle d’extraction de relations ;
- et sur les travaux d’un stage réalisé en 2025 qui visait à explorer les capacités des LLM pour la génération de données synthétiques annotées (en particulier les entités nommées)
L’objectif du projet CORALIA est ainsi d’explorer l’utilité des LLM dans des scénarios d’annotation d’entités nommées et de relations sémantiques sur des textes spécialisés comportant un vocabulaire d’intérêt défense. L’idée est de comparer et d’évaluer l’apport des modèles plus récents sur différents corpus, afin d’évaluer la faisabilité et la robustesse des méthodes sur des styles et contenus variés.
**Mission confiée**:
Le ou la stagiaire travaillera sur l’annotation automatique des relations sémantiques. La mission s’articulera en plusieurs étapes successives.
Dans un premier temps, il s’agira de se familiariser avec les données disponibles, le guide d’annotation des relations ainsi que les travaux déjà réalisés. Cette phase inclura également une exploration comparative des différents LLM afin d’identifier le(s) plus adapté(s) à la tâche.
Le cœur de la mission consistera ensuite à concevoir une stratégie d’annotation automatique : définition du ou des prompts, élaboration d’un processus garantissant la qualité et la cohérence des annotations, et mise en place d’une chaîne de traitement prenant en compte le traitement et le formatage des réponses générées par le modèle.
À partir des prompts conçus par le ou la stagiaire, une première campagne d’annotation automatique sera réalisée sur un sous-ensemble du corpus. Les résultats feront l’objet d’une évaluation comparative approfondie, en confrontant les annotations automatiques aux annotations manuelles existantes, afin de mettre en lumière les atouts et les limites du modèle retenu et de la stratégie utilisée.
Dans un second temps, le pipeline ainsi conçu sera appliqué à un corpus différent. L’objectif sera de mesurer la capacité de généralisation de l’approche et d’évaluer sa robustesse face à des données de nature et de style variés.
**Principales activités**:
- Analyser les besoins et se familiariser avec les données
- Tester et sélectionner le LLM le plus pertinent ainsi que la méthode de prompt engineering la plus adaptée
- Concevoir une stratégie d’annotation automatique
- Mettre en place un pipeline dédié à
-
Stage Intelligence Artificielle
il y a 1 semaine
Grenoble, Auvergne-Rhône-Alpes, France CEA Temps pleinInformations générales Entité de rattachement Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un...
-
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Composants et équipements électroniques **Contrat**: - CDD **Intitulé de l'offre**: - Des LLM pour optimiser la conception en électronique radiofréquence et microélectronique H/F **Statut du poste**: - Cadre **Durée du contrat (en mois)**: - 18 mois renouvelable **Description de l'offre**: **Le...
-
Stage (F/H)/x Bac +4/5 Détection de Passagers Dans
il y a 3 jours
Grenoble, France BLUECIME Temps pleinLa société Bluecime (Grenoble) est spécialisée en développement de systèmes matériels et logiciels, principalement pour le loisir de montagne, en particulier dans le cadre de l'aide à l'exploitation des téléportés à l'aide de technologies par analyse d'image et d'apprentissage automatique. **Description du poste** Déjà implantée dans le...
-
Attaques Par Empoisonnement Contre Des Llms en Federated Learning
il y a 2 semaines
Grenoble, France CEA Temps pleinDescription du poste **Domaine**: - Composants et équipements électroniques **Contrat**: - Stage **Intitulé de l'offre**: - Attaques par empoisonnement contre des LLMs en Federated Learning H/F **Sujet de stage**: - Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat. Il apporte des solutions...
-
Stage - contrôle automatique de rapports F/H
il y a 1 semaine
Grenoble, Auvergne-Rhône-Alpes, France Framatome Temps pleinDescription du posteMétierTA - DESIGN & ENGINEERING - TAL - Contrôle commande et Instrumentation nucléaire Intitulé du posteStage - contrôle automatique de rapports F/H ContratStage Fourchette de rémunérationBarème Alternance, Stage et VIEDescription de la BUImplantée sur plus de 20 sites dans 10 pays, la Business Unit (BU) Instrumentation et...
-
Stage - Consolidation de La Modélisation
il y a 1 semaine
Grenoble, France EDF Temps pleinMise en ligne le 09/10/2024 Principales caractéristiques de l'offre d'emploi - Type de contrat: - Stage - Niveau de formation: - BAC +4 / BAC +5 - Expérience: - Débutant - Spécialité(s): - Ingénierie / Expertise / Recherche - Pays / Région: - France / Auvergne-Rhône-Alpes - Département: - Isère (38) - Ville: - GRENOBLE - EDF est labellisé Happy...
-
Stage Bac +5
il y a 2 semaines
Grenoble, France CEA Temps pleinSite carrière CEA : toutes nos offres d'emploi Vous n'avez pas encore votre propre espace candidat. Créez-le en cliquant ici.Un souci ? Contactez-nous à admin-poem@cea.fr Stage Bac +5 – Réduction de modèle pour l'EHT H/F Informations générales Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat. Il...
-
Stage de fin d’étude H/F
il y a 21 heures
Grenoble, France CORYS Temps pleinStage de fin d’étude H/F : Ingénieur(e)/Informaticien(e) en Intelligence Artificielle - Développement d'outils et accompagnement utilisateurs CORYS Grenoble, Auvergne-Rhône-Alpes, France Au sein du pôle IA de CORYS, vous participerez au développement et au déploiement d'outils d'intelligence artificielle au service de nos équipes. L'objectif est...
-
Stage - Modélisation Acoustique de Tours
il y a 1 semaine
Grenoble, France EDF Temps pleinMise en ligne le 09/10/2024 Principales caractéristiques de l'offre d'emploi - Type de contrat: - Stage - Niveau de formation: - BAC +4 / BAC +5 - Expérience: - Débutant - Spécialité(s): - Ingénierie / Expertise / Recherche - Pays / Région: - France / Auvergne-Rhône-Alpes - Département: - Isère (38) - Ville: - GRENOBLE - EDF est labellisé Happy...
-
Stage - Recalage Et Amélioration D'un Modèle de
il y a 7 jours
Grenoble, France Framatome Temps plein**Informations générales**: **Entité légale **:Chez Framatome, filiale d'EDF, nous concevons et fournissons des équipements, des services, du combustible, et des systèmes de contrôle-commande pour les centrales nucléaires du monde entier. Nos 18 000 collaborateurs permettent chaque jour à nos clients de produire un mix énergétique bas-carbone...