Emplois actuels liés à Post doctorante ou Post doctorant en apprentissage par renforcement basé sur un modèle - Palaiseau, Île-de-France - Institut Mines-Télécom


  • Palaiseau, Île-de-France Institut Mines-Télécom Temps plein

    Qui sommes-nous ?Télécom Paris, école de l'IMT (Institut Mines-Télécom) et membre fondateur de l'Institut Polytechnique de Paris, est une grande école du top 5 des écoles d'ingénieurs généralistes françaises.La Raison d'Être de Télécom Paris est de former, imaginer et entreprendre pour concevoir des modèles, des technologies et des solutions...


  • Palaiseau, Île-de-France Choisir le Service Public Temps plein

    Informations générales Organisme de rattachement CNRS   Référence UMR7605-ALERON-028   Date de début de diffusion /01/2026 Date de parution /02/2026 Date de fin de diffusion /02/2026 VersantFonction Publique de l'Etat CatégorieCatégorie A (cadre) Nature de l'emploiEmploi ouvert uniquement aux contractuels Domaine / MétierRecherche -...


  • Palaiseau, Île-de-France Thales Temps plein

    Lieu : Palaiseau, FranceConstruisons ensemble un avenir de confianceThales est un leader mondial des hautes technologies spécialisé dans trois secteurs d'activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l'environnement et plus...


  • Palaiseau, Île-de-France INRAE Temps plein

    91120 PalaiseauRETOUR À LA LISTE DES RÉSULTATSPrésentation INRAEL'Institut national de recherche pour l'agriculture, l'alimentation et l'environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de personnes, avec 272 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la...


  • Palaiseau, Île-de-France ONERA Temps plein

    Présentation de l'ONERAL'ONERA, acteur central de la recherche aéronautique et spatiale, emploie plus de 2200 personnes. Placé sous la tutelle du Ministère des Armées, il dispose d'un budget de 336 millions d'euros (2024), dont plus de la moitié provient de contrats d'études, de recherche et d'essais. Expert étatique, l'ONERA prépare la défense de...


  • Palaiseau, Île-de-France Institut Mines-Télécom Temps plein

    Présentation de Télécom SudParis :Télécom SudParis est une grande école publique d'ingénieurs reconnue au meilleur niveau des sciences et technologies du numérique. La qualité de ses formations est basée sur l'excellence scientifique de son corps professoral et une pédagogie mettant l'accent sur les projets d'équipes, l'innovation de rupture et...


  • Palaiseau, Île-de-France Thales Temps plein

    Lieu : Palaiseau, FranceConstruisons ensemble un avenir de confianceThales est un leader mondial des hautes technologies spécialisé dans trois secteurs d'activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l'environnement et plus...


  • Palaiseau, Île-de-France ONERA Temps plein

    Présentation de l'ONERAL'ONERA, acteur central de la recherche aéronautique et spatiale, emploie plus de 2200 personnes. Placé sous la tutelle du Ministère des Armées, il dispose d'un budget de 336 millions d'euros (2024), dont plus de la moitié provient de contrats d'études, de recherche et d'essais. Expert étatique, l'ONERA prépare la défense de...


  • Palaiseau, Île-de-France Thales Temps plein

    Lieu : Palaiseau, FranceConstruisons ensemble un avenir de confianceThales est un leader mondial des hautes technologies spécialisé dans trois secteurs d'activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l'environnement et plus...


  • Palaiseau, Île-de-France ONERA - The French Aerospace Lab Temps plein

    L'ONERA, acteur central de la recherche aéronautique et spatiale, emploie plus de 2200 personnes. Placé sous la tutelle du Ministère des Armées, il dispose d'un budget de 336 millions d'euros (2024), dont plus de la moitié provient de contrats d'études, de recherche et d'essais. Expert étatique, l'ONERA prépare la défense de demain, répond aux...

Post doctorante ou Post doctorant en apprentissage par renforcement basé sur un modèle

il y a 1 heure


Palaiseau, Île-de-France Institut Mines-Télécom Temps plein

Qui sommes-nous ?

Télécom Paris, école de l'IMT (Institut Mines-Télécom) et membre fondateur de l'Institut Polytechnique de Paris, est une grande école du top 5 des écoles d'ingénieurs généralistes françaises.

La Raison d'Être de Télécom Paris est de former, imaginer et entreprendre pour concevoir des modèles, des technologies et des solutions numériques au service d'une société et d'une économie respectueuses de l'humain et de son environnement.

Nous recherchons notre futur(e) post-doctorant(e) en apprentissage par renforcement basé sur un modèle pour rejoindre le département

Informatique et Réseaux (INFRES) à Telecom Paris.

L'apprentissage par renforcement (AR) s'est imposé comme un paradigme pertinent pour entraîner des agents à réaliser des tâches complexes. L'apprentissage par renforcement basé sur un modèle (ARbM), en particulier, promet une meilleure efficacité en termes d'échantillons et des capacités de lanification sophistiquées en permettant à un agent d'apprendre un modèle prédictif de son environnement. Cependant, l'application directe des méthodes actuelles d'ARbM à des domaines critiques pour la sécurité, tels que la robotique autonome, les transports ou le contrôle industriel, est entravée par des défis non résolus.

Le défi scientifique principal : Les limites des modèles du monde actuels. Les approches standards de l'ARbM apprennent généralement un modèle du monde monolithique et de type « boîte noire », utilisant souvent un grand réseau de neurones comme approximateur de fonction. Bien que ces modèles puissent être très efficaces pour la prédiction au sein de leur distribution d'entraînement, ils souffrent de deux limitations majeures pour leur déploiement dans des systèmes sociotechniques :

  1. Fragilité et défaillances imprévisibles : Les modèles appris sont sujets à des défaillances imprévisibles lorsque l'agent rencontre des états ou des dynamiques jamais vus (c'est-à-dire un décalage de distribution). Ces défaillances sont difficiles à anticiper et peuvent conduire à des comportements dangereux, car les prédictions du modèle ne sont plus fiables.

  2. Manque de vérifiabilité : Les modèles appris sont opaques et ne sont assortis d'aucune garantie formelle. Il n'est pas possible de prouver que le modèle respectera de manière cohérente les contraintes fondamentales du monde réel ou sera aligné avec des valeurs attendues, telles que les lois physiques, les règles de sécurité ou les invariants logiques. Ce manque de correction vérifiable constitue un obstacle majeur à la construction de systèmes autonomes fiables et bien calibrés.

Axe de recherche : Modèles du monde vérifiables. La recherche se concentrera sur le développement d'une nouvelle classe de modèles du monde structurés et vérifiables qui intègrent la flexibilité de l'apprentissage profond (deep learning) à la rigueur des méthodes formelles et du raisonnement compositionnel. Les axes de recherche principaux de ce poste sont :


• Modèles structurés et neuro-symboliques : La recherche portera sur des architectures de modèles qui ne sont pas apprises à partir de zéro. Au lieu de cela, elles seront conçées pour intégrer des connaissances symboliques explicites. Ceci pourrait inclure des lois physiques connues, des règles logiques ou des contraintes de sécurité, qui sont traitées comme des composantes fixes et vérifiables du modèle. Le processus d'apprentissage se concentre alors sur la modélisation des aspects plus complexes et inconnus de l'environnement autour de ces vérités établies.


• Raisonnement compositionnel pour la sécurité : Nous explorerons comment un modèle du monde complexe peut être construit en composant des sous-modèles plus petits et plus spécialisés. Une question de recherche clé est de savoir comment vérifier formellement les propriétés du modèle composite en se basant sur les propriétés connues de ses composants individuels. Ceci offre une voie modulaire et scalable pour certifier que le modèle interne du monde de l'agent est, et reste, cohérent avec ses spécifications de sécurité.


• Adaptation de modèle : Un agent véritablement intelligent doit être capable d'adapter sa compréhension du monde à partir de l'expérience. Cette recherche développera un cadre pour l'adaptation sûre des modèles. Cela implique de créer des algorithmes d'ARbM où l'agent peut proposer des mises à jour de la structure de son propre modèle du monde, mais ces mises à jour ne sont acceptées qu'après qu'une étape de vérification formelle confirme que le nouveau modèle respecte toujours ses propriétés de sécurité fondamentales.


• Apprentissage multi-tâches : La décomposition des tâches permet aux agents d'apprendre des compétences transversales qui peuvent être utiles dans différents contextes. Les représentations partagées, les paradigmes d'AR multi-tâches et multi-objectifs améliorent la généralisation. La recherche dans ce domaine explorera comment capturer la décomposition des tâches dans les modèles du monde pour permettre des spécifications multi-tâches avec des garanties vérifiables.

Le candidat ou la candidate retenu(e) dirigera la résolution de ces problèmes ouverts à travers le développement et l'implémentation d'algorithmes d'AR. Il ou elle aura l'opportunité d'avoir un impact significatif dans le domaine de l'intelligence artificielle (IA) fiable et bien calibrée grâce à des collaborations internationales (par ex., UT Austin, MIT).

Vos principales missions seront:

  • Assurer des missions de recherche dans le domaine de l'apprentissage par renforcement basé sur un modèle (ARbM).

  • Assurer des missions d'encadrement et de tutorat

  • Participer à la notoriété de l'Ecole, de l'Institut Mines-Télécom et de l'Institut Polytechnique de Paris


Nous recherchons un(e) candidat(e) possédant une solide maîtrise théorique de l'apprentissage par renforcement, accompagnée de bases solides en mathématiques. Vous devrez également avoir une expérience avérée dans la programmation d'agents d'apprentissage par renforcement, en particulier avec des outils tels que JAX, PyTorch, Gym, etc.

Une capacité démontrée à publier dans des conférences et revues scientifiques de premier plan est essentielle, tout comme une aptitude à partager et diffuser vos connaissances au sein de l'équipe. Enfin, vous devez maîtriser l'anglais afin d'évoluer dans un environnement international. Vous détenez un doctorat ou équivalent. Votre niveau d'anglais est professionnel.

Pourquoi nous rejoindre ?

Vous travaillerez dans un environnement en plein développement, agréable, verdoyant et accessible (notamment pour les personnes en situation de handicap) à seulement 20 km de Paris (RER B et C, proximité des grands axes routiers, navette mutualisée en partance de la Porte d'Orléans). Vous bénéficierez de :

  • 49 jours de congés annuels (CA + RTT)

  • flexibilité des horaires de travail (en fonction de l'activité du service)

  • télétravail 1 à 3 jours/semaine possible

  • Remboursement abonnement transports en commun à 75%

  • Proximité de nombreuses infrastructures sportives, conciergerie, parking souterrain, restauration interne...

  • A savoir : nos cotisations sociales sont moins élevées que dans le secteur privé

Informations diverses :

Date limite de candidature : 09 mars 2026

Type d'emploi : CDD de 24 mois
Description de poste ici

Contact scientifique : Georgios Bakirtzis

Contacta administratif : Najoua Kharmaze

Nos recrutements sont fondés sur les compétences, sans distinction d'origine, d'âge, d'identité de genre et d'orientation sexuelle et tous nos postes sont ouverts aux personnes en situation de handicap.