Alignement de representation avec les humains des modeles vision-langage-action pour les taches hierarchiques
il y a 2 semaines
Topic description Alors que les avancées des modeles vision langage impactent la robotique car ils sont exploités pour la planification des taches compositionnelles, ils butent contre le manque d'incarnation des actions physiques des LLMs et de leur mauvais capacité pour la planification long-terme afin d'accomplir des taches compositionnelles. Une autre limitation des modeles de fondation est le manque en robotique de bases de données massives pour l'apprentissage d'action incarnée multi-taches. De plus, plus la complexité des taches augmente, plus la taille des bases de données doit augmenter, exponentiellement. En fait, en apprentissage non-fini, l'ensemble des taches et les changement d'environnement, par définition, rendent impossible l'apprentissage d'une base de donnée pré-définie, aussi grande soit-elle. Dans cette thèse theorique, en adoptant la perspective de l'apprentissage continu, nous proposons de nous attaquer à la limitation des bases de données prédéfinies avec les mécanismes d'apprentissage bio-inspirés : - l'apprentissage par renforcement par motivation intrinsèque pour collecter des données de manière efficace - l'apprentissage hiérarchique pour mettre à profit l'apprentissage par transfert à partir de taches simples pour construire des taches de plus en plus complexes - l'apprentissage par imitation actif pour exploiter l'expertise humaine, en particulier les compositions haut niveau de taches. Cette thèse a pour but d'apporter les bases theoriques pour aligner aux representations des humains, des modeles de fondation robotique multi-modales adaptatif de tache en incorporant la proprioception, la vision, le langage et l'apprentissage auto-supervisé, permettant aux robots de généraliser des taches primitives pour améliorer en taches compositionnelles, pour l'apprentissage non-fini dans in environnement incarné.------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------While robots are expected to carry out complex tasks in the embodied [Varela et al. ] open-ended environment [Doncieux et al. ], the state of the art in robotics can not yet generalise from primitive tasks to solve tasks higher in complexity, and results show only success for a limited number of tasks. While the breakthrough of Vision Language Models (VLMs) impact robotics as they are harvested to give task planning for compositional tasks, they are challenged with the lack of grounding of physical actions of LLMs and the poor capabilities for long-term planning for long-horizon tasks. Another limitation of foundation models is the lack in robotics of a large dataset for multi-task embodied action learning. Moreover, as the complexity of tasks grows, the need for very large datasets grows. Actually, in open-ended learning, the set of tasks and the environment changes by definition make it impossible to learn from a pre-defined dataset, however large it may be. In this theoretical thesis, adopting the continual learning perspective, we propose to tackle the limitation of predefined datasets with bio-inspired learning mechanisms : • intrinsically-motivated reinforcement learning to collect efficiently data and learn from scarce data • hierarchical learning to leverage transfer learning from simple tasks to build more complex tasks • active imitation learning to harness human expertise, especially for high-level task composition. This thesis aims to study the theoretical bases to align with human representation, multi-modal, task-adaptive robotic foundation models by incorporating proprioception, vision, language and self-supervised learning, allowing robots to generalize from primitive tasks to upscale to complex tasks, for open-ended learning in an embodied environment.------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Début de la thèse : 01/10/ Funding category Public funding alone (i.e. government, region, European, international organization research grant) Funding further details Allocation doctorale AMX*Concours IPP ou école membre*Concours pour un contrat doctoral*Financement CSC*
-
Exploitation D'un Grand Modèle de Langage Et D'une
il y a 6 jours
Palaiseau, France CEA Temps pleinDescription du poste **Domaine**: - Sciences pour l'ingénieur **Contrat**: - Stage **Intitulé de l'offre**: - Exploitation d'un grand modèle de langage et d'une reconstruction 3D neurale sémantique pour la navi H/F **Sujet de stage**: - Dans le cadre de ce stage, nous proposons d'étudier le domaine du Vision-Language Navigation [1,2,3], domaine...
-
Palaiseau, Île-de-France Thales Temps pleinLieu : Palaiseau, FranceConstruisons ensemble un avenir de confianceThales est un leader mondial des hautes technologies spécialisé dans trois secteurs d'activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l'environnement et plus...
-
Palaiseau Polytechnique, France Thales Temps pleinLieu : Palaiseau, FranceConstruisons ensemble un avenir de confianceThales est un leader mondial des hautes technologies spécialisé dans trois secteurs d'activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l'environnement et plus...
-
Palaiseau Polytechnique, France Thales Temps pleinLieu : Palaiseau, FranceConstruisons ensemble un avenir de confianceThales est un leader mondial des hautes technologies spécialisé dans trois secteurs d'activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l'environnement et plus...
-
Palaiseau, France Thales - CortAIx Factory (AI by Thales) Temps pleinLieu : Palaiseau, FranceConstruisons ensemble un avenir de confianceThales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et...
-
Palaiseau, France IRT SystemX Temps plein**Contexte du stage**: Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs...
-
Optimisation de L'ia
il y a 2 jours
Palaiseau, France CEA Temps pleinDescription du poste **Domaine**: - Autre **Contrat**: - Stage **Intitulé de l'offre**: - Optimisation de l'IA : pruning de Vision Transformers pour les systèmes embarqués **Sujet de stage**: - Peut-on appliquer une méthode de réduction des tokens généralisée aux modèles ViT multitâches? **Durée du contrat (en mois)**: - 6...
-
Palaiseau, France CEA Temps pleinDescription du poste **Domaine**: - Sciences pour l'ingénieur **Contrat**: - Stage **Intitulé de l'offre**: - Stage - Etude de l'embarquabilité des réseaux Perceiver IO et Hierarchical Reasoning Model H/F **Sujet de stage**: - Dans un contexte en constante évolution vous travaillerez sur l'étude de l'embarquabilité des réseaux de neurones...
-
Palaiseau, France CEA Temps pleinStage - Etude de l'embarquabilité des réseaux Perceiver IO et Hierarchical Reasoning Model H/F Référence 2025-37238 Description de l'unité Le Commissariat à l’Énergie Atomique et aux Énergies Alternatives (CEA) intervient dans trois grands domaines : l'énergie, les technologies pour l'information et la santé et la défense. Situé en...
-
Palaiseau, France Thales - CortAIx Factory (AI by Thales) Temps pleinLieu : Palaiseau, FranceConstruisons ensemble un avenir de confianceThales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et...