Stage M 2
il y a 6 heures
Stage M 2 : Système hybride d’optimisation du covoiturage étudiant : intégration planification offline et décisions dynamiques temps réel par apprentissage par renforcement H/F Join to apply for the Stage M 2 : Système hybride d’optimisation du covoiturage étudiant : intégration planification offline et décisions dynamiques temps réel par apprentissage par renforcement H/F role at CESI Description de l'offre d'emploi Intégrer Linéact au sein de CESI pour un stage de recherche serait une formidable opportunité de contribuer à des projets innovants, tout en approfondissant mes compétences dans un environnement à la pointe de la transformation numérique et de l’industrie 4.0. Projet de stage Ce stage s’inscrit dans le cadre du projet "Mon Trajet Vert" et vise à développer un système hybride d’optimisation du covoiturage étudiant intégrant deux horizons temporels complémentaires : une couche de planification offline (optimisation MILP à J-1) pour les étudiants confirmés, et une couche de décisions dynamiques temps réel (apprentissage par renforcement) pour gérer les demandes spontanées et les perturbations. L’originalité de l’approche réside dans la coordination formalisée entre optimisation mathématique et apprentissage automatique séquentiel. La méthodologie s’appuiera sur les travaux antérieurs du laboratoire. Le stage étendra ces infrastructures en développant un agent PPO (Proximal Policy Optimization) contraint opérant sur un graphe dynamique des opportunités de covoiturage. Les statistiques du campus CESI Strasbourg révèlent que 32% des étudiants décident de leur venue moins de 24h avant le départ, et 15% d’annulations surviennent le jour même. Le système hybride proposé permettra de capturer ces opportunités tout en garantissant la stabilité des plans établis pour les étudiants planificateurs. L’approche combinera modélisation par processus de décision markovien contraint (CMDP), algorithmes de réoptimisation incrémentale, et validation expérimentale par simulation Monte Carlo sur données réelles, avec un potentiel de publication. Contexte scientifique Les systèmes de covoiturage contemporains adoptent majoritairement soit une approche purement planifiée (optimisation offline avec engagements à l’avance), soit une approche purement dynamique (matching temps réel sans préplanification). Cette dichotomie présente des limitations structurelles : les systèmes planifiés manquent de flexibilité face aux imprévus, tandis que les systèmes dynamiques souffrent d’une fragmentation des opportunités et d’une sous-optimalité globale. État de l’art et positionnement scientifique Les travaux récents sur l’optimisation du covoiturage étudiant [1, 2] ont établi des résultats prometteurs avec des réductions de véhicules de l’ordre de 35‑51% via optimisation MILP multi‑objectifs. Parallèlement, les approches d’apprentissage par renforcement pour le covoiturage dynamique [3, 4] ont démontré leur capacité à gérer des décisions séquentielles dans des environnements incertains. Cependant, l’intégration cohérente de ces deux paradigmes dans un cadre unifié reste largement inexplorée. Formalisation CMDP rigoureuse : modélisation par processus de décision markovien contraint avec fonction de récompense multi‑objectifs et contraintes explicites (temporelles, capacité, équité) Architecture à deux couches coordonnées : décomposition claire entre planification stratégique (MILP) et gestion tactique temps réel (RL) avec mécanismes de verrouillage/flexibilité Graphe dynamique des opportunités : représentation évolutive du réseau de covoiturage avec mise à jour incrémentale des compatibilités spatio‑temporelles Validation empirique robuste : simulation Monte Carlo sur 1000+ journées avec modélisation stochastique des annulations et demandes spontanées Projet de stage (suite) Une couche planifiée offline : optimisation MILP multi‑objectifs (réutilisation pipeline existant) pour étudiants confirmant leur venue à J‑1 (68% de la population) Une couche dynamique online : agent d’apprentissage par renforcement (PPO contraint) gérant demandes spontanées (22%) et annulations (15%) Un module d’arbitrage ML : extension du réseau de neurones existant pour prédiction temps réel de l’acceptabilité des matchings proposés Des mécanismes de fallback : alternatives automatiques (transport public, vélo) en cas d’échec de matching Le/la stagiaire travaillera en étroite collaboration avec l’encadrant sur la formalisation théorique du CMDP, l’implémentation de l’agent RL, l’intégration avec le pipeline d’optimisation existant, et la validation expérimentale rigoureuse. Le projet s’inscrit dans l’initiative "Mon Trajet Vert" et bénéficiera de l’accès aux données d’enquêtes et aux infrastructures de simulation SUMO existantes. Objectifs de stage Formalisation théorique et architecture système (Mois 1‑2) Modélisation CMDP : définition espace d’états (graphe opportunités dynamique), actions (assignation, création véhicule, refus), contraintes (temporelles, capacité, équité) Spécification fonction de récompense multi‑objectifs (CO2, utilisation capacité, satisfaction, temps attente) Conception architecture à deux couches avec protocoles de communication (états verrouillés/flexibles, triggers de réoptimisation) Formalisation mécanismes de gestion de l’incertitude (modèles stochastiques annulations, prédiction fiabilité demandes) Implémentation graphe dynamique et gestion événementielle (Mois 2‑3) Développement structure de données graphe dynamique (nœuds : étudiants/conducteurs, arêtes : compatibilités spatio‑temporelles) Implémentation moteur événementiel (nouvelle demande, annulation, confirmation retardée) Algorithmes de mise à jour incrémentale du graphe (ajout/suppression nœuds, recalcul arêtes) Intégration avec simulation SUMO pour calcul temps réel des détours et temps de trajet Développement agent d’apprentissage par renforcement (Mois 3‑4) Implémentation agent PPO contraint (Proximal Policy Optimization) avec réseaux acteur‑critique Développement mécanisme de masquage d’actions (respect contraintes dures : temporelles, capacité, verrouillage) Intégration Lagrangien augmenté pour contraintes soft (équité, qualité service) Entraînement par simulation avec environnement reproduisant statistiques réelles (32% spontanés, 15% annulations) Extension modèle ML pour prédictions temps réel (Mois 4‑5) Enrichissement features MLP existant avec variables temporelles (urgence, historique annulations, contraintes temps réel) Développement module de prédiction probabilité acceptation détour conducteur (seuil décisionnel dynamique) Estimation fiabilité demandes spontanées (probabilité show‑up) pour gestion risque Intégration prédictions dans processus décisionnel agent RL (reward shaping) Validation expérimentale et analyse comparative (Mois 5‑6) Simulation Monte Carlo (1000 journées) avec paramétrisation stochastique (taux annulation 5‑20%, proportion spontanés 20‑40%) Comparaison rigoureuse 3 politiques : offline pur, online pur, hybride proposé Analyse de sensibilité (délai décision, capacité réseau, seuils acceptabilité) Développement dashboard interactif (visualisation décisions temps réel) et préparation article scientifique Livrables attendus Livrables techniques Code source documenté : Dépôt GitHub public avec architecture modulaire (couche offline, couche RL, graphe dynamique), documentation Sphinx, et tests unitaires Agent RL entraîné : Modèle PPO sauvegardé avec checkpoints, logs d’entraînement (TensorBoard), et métriques de convergence Dataset de simulation : Trajectoires d’épisodes (1000+ journées) avec événements annotés (demandes, annulations, décisions agent) sous licence CC BY 4.0 Dashboard temps réel : Application web (Streamlit) pour visualisation live des décisions agent et comparaison politiques Guide de reproduction : Documentation complète installation, entraînement agent, et exécution benchmarks (20‑30 pages) Livrables scientifiques Mémoire de stage : Rapport complet 80‑100 pages (formalisation CMDP, méthodologie RL, résultats expérimentaux, analyses) Article scientifique : Manuscrit soumissible à journal Q1 (Transportation Research Part B ou Operations Research) Communication conférence : Résumé étendu pour ROADEF 2027 ou conférence ML (NeurIPS Workshop on RL for Real Life) Présentation soutenance : Slides + démonstration live du système hybride (durée 30‑40 min) Livrables Vidéo démonstration : Screencast 5‑7 minutes montrant agent RL en action (gestion demandes spontanées, réaffectations dynamiques) Rapport d’impact : Quantification gains système hybride vs politiques baseline (réduction véhicules, taux service, satisfaction) Analyse de scalabilité : Étude performance computationnelle (temps décision, capacité réseau) pour déploiement opérationnel (100‑300 étudiants) Contexte Présentation du laboratoire CESI LINEACT (UR 7527), Laboratoire d'Innovation Numérique pour les Entreprises et les Apprentissages au service de la Compétitivité des Territoires, anticipe et accompagne les mutations technologiques des secteurs et des services liés à l’industrie et au BTP. La proximité historique de CESI avec les entreprises est un élément déterminant pour nos activités de recherche, et a conduit à concentrer les efforts sur une recherche appliquée proche de l’entreprise et en partenariat avec elles. Une approche centrée sur l’humain et couplée à l’utilisation des technologies, ainsi que le maillage territorial et les liens avec la formation, ont permis de construire une recherche transversale ; elle met l’humain, ses besoins et ses usages, au centre de ses problématiques et aborde l’angle technologique au travers de ces apports. Sa recherche est organisée selon deux équipes scientifiques interdisciplinaires et plusieurs domaines applicatifs. L’équipe 1 "Apprendre et Innover" relève principalement des Sciences cognitives, Sciences sociales et Sciences de gestion, Sciences et techniques de la formation et celles de l’innovation. L’équipe 2 "Ingénierie et Outils Numériques" relève principalement des Sciences du Numérique et de l'Ingénierie. Les principaux objectifs scientifiques portent sur la modélisation, la simulation, l’optimisation et le pilotage de composants, systèmes et processus complexes et des interactions Humains‑systèmes dans des systèmes cyber‑physiques et jumeaux numériques. Ces deux équipes développent et croisent leurs recherches dans les domaines applicatifs de l'Industrie du Futur, de la Ville du Futur et des services numériques, soutenues par des plateformes de recherche, principalement celle de Rouen dédiée à l’Usine du Futur et celles de Nanterre dédiée à l’Usine et au Bâtiment du Futur. Positionnement dans les thématiques de recherche du laboratoire Ce stage s’inscrit pleinement dans les activités de l’équipe 2 "Ingénierie et Outils Numériques", particulièrement dans les axes modélisation, optimisation et analyse de données de systèmes cyber‑physiques. Le sujet contribue également au domaine applicatif Ville du Futur en abordant les enjeux de mobilité urbaine durable et de systèmes de transport adaptatifs. L’optimisation Hybride Offline-online Représente Une Thématique Émergente En Recherche Opérationnelle Et Apprentissage Automatique, Combinant Programmation Mathématique, Processus Dé‑Cisionnels Markoviens Et Apprentissage Par Renforcement. Ce Stage Permettra Au Laboratoire De Valoriser et étendre les infrastructures existantes (SUMO, MILP, MLP) vers le domaine de l’optimisation dynamique Développer une expertise sur les architectures hybrides combinant optimisation et apprentissage par renforcement Renforcer la position du laboratoire dans le domaine des systèmes de transport intelligents adaptatifs Ouvrir des perspectives de collaboration avec plateformes de mobilité (BlaBlaCar Campus, Karos) et opérateurs de transport Pré‑requis du poste Profil Recherché Étudiant(e) en Master 2 Recherche Opérationnelle, Intelligence Artificielle, Data Science, ou équivalent Élève‑ingénieur(e) 5ème année avec spécialisation RL/Optimisation/Transport Fort intérêt pour les systèmes décisionnels séquentiels et l’optimisation sous incertitude Motivation pour la publication scientifique et potentiellement une poursuite en thèse Compétences Scientifiques Et Techniques Apprentissage par renforcement : Solides connaissances en RL (Q‑learning, DQN, Policy Gradient, PPO). Expérience pratique avec frameworks (Stable‑Baselines3, Ray RLlib) fortement valorisée. Recherche opérationnelle : Bonnes connaissances en programmation linéaire mixte (MILP), optimisation multi‑objectifs, et compréhension des compromis optimisation exacte vs heuristic. Programmation scientifique avancée : Excellente maîtrise Python (NumPy, Pandas, PyTorch/TensorFlow, OR‑Tools/Gurobi). Expérience avec architectures événementielles et systèmes temps réel. Modélisation stochastique : Compréhension des processus de décision markoviens (MDP/CMDP), théorie des graphes dynamiques, et gestion de l’incertitude. Rigueur méthodologique : Capacité à mener une démarche scientifique complète incluant formalisation mathématique, implémentation, validation expérimentale et analyse statistique. Compétences Relationnelles Autonomie et esprit d’initiative dans la conduite de travaux de recherche appliquée Capacité à travailler en équipe pluridisciplinaire (optimisation, ML, transport) Rigueur et méthodologie dans l’approche scientifique et la documentation technique Bonnes capacités rédactionnelles en français et anglais scientifique Gratification à 15% du plafond horaire de la Sécurité Sociale Date de début : Février 2026 Votre Candidature Devra Comporter Un Curriculum‑Vitae ; Une lettre de motivation pour le sujet ; Notes du parcours (Licence ou autre) et du master en cours ; Lettres de recommandation si disponibles. Références. El Mourabit, B., & Bezoui, M. (2025). "Conception d’un système d’optimisation de trajets partagés pour la mobilité étudiante." Rapport de stage Master IMSD, Université de Lorraine. Ibnelbey, R., & Bezoui, M. (2025). "Preference-based multi-criteria optimization for student transportation: A machine learning approach." Actes ROADEF 2025, Champs-sur-Marne, France. Wen, J., Zhao, J., & Jaillet, P. (2017). "Rebalancing shared mobility‑on‑demand systems: A reinforcement learning approach." 20th IEEE International Conference on Intelligent Transportation Systems (ITSC), 220‑225. Lin, K., Zhao, R., Xu, Z., & Zhou, J. (2018). "Efficient large‑scale fleet management via multi‑agent deep reinforcement learning." Proceedings of the 24th ACM SIGKDD, 1774‑1783. Ma, T. Y., Rasulkhani, S., Chow, J. Y., & Klein, S. (2019). "A dynamic ridesharing dispatch and idle vehicle repositioning strategy with integrated transit transfers." Transportation Research Part E: Logistics and Transportation Review, 128, 417‑442. Alonso‑Mora, J., Samaranayake, S., Wallar, A., Frazzoli, E., & Rus, D. (2017). "On‑demand high‑capacity ride‑sharing via dynamic trip‑vehicle assignment." Proceedings of the National Academy of Sciences, 114(3), 462‑467. Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347. Altman, E. (1999). "Constrained Markov decision processes." CRC Press, Vol. 7. Agatz, N., Erera, A., Savelsbergh, M., & Wang, X. (2012). "Optimization for dynamic ride‑sharing: A review." European Journal of Operational Research, 223(2), 295‑303. Furuhata, M., et al. (2013). "Ridesharing: The state‑of‑the‑art and future directions." Bezoui, M., Olteanu, A. L., & Sevaux, M. (2022). "Integrating preferences within multi‑objective flexible job shop scheduling." European Journal of Operational Research, 305(3), 1079‑1086. Sutton, R. S., & Barto, A. G. (2018). "Reinforcement learning: An introduction." MIT press, Second Edition. #J-18808-Ljbffr
-
Stage M 2
il y a 7 heures
Vandœuvre-lès-Nancy, France CESI Temps pleinOverview3 days ago Be among the first 25 applicants. Get AI-powered advice on this job and more exclusive features.Description de l'offre d'emploiIntégrer Linéact au sein de CESI pour un stage de recherche serait une formidable opportunité de contribuer à des projets innovants, tout en approfondissant mes compétences dans un environnement à la pointe...
-
Stage Conseiller Sédentaire
il y a 1 semaine
Vandœuvre-lès-Nancy, France MSM Temps plein**À propos du poste** Nous recherchons un stagiaire ou une stagiaire commercial(e) motivé(e) pour rejoindre notre équipe dynamique. Ce stage vous permettra d'acquérir une expérience précieuse dans le domaine de la vente et du développement commercial, tout en contribuant activement à nos projets. Vous travaillerez en étroite collaboration avec notre...
-
Stage Ingénieur Simulation
il y a 9 heures
Vandœuvre-lès-Nancy, France CESI Temps pleinUne école d'ingénieurs, recherche un stagiaire pour un projet de recherche innovant sur des matériaux biosourcés dans un contexte de construction durable. Le candidat idéal est étudiant en école d'ingénieur ou en Master 2, avec de solides compétences en programmation Python, réseaux de neurones et en équations aux dérivées partielles. Le stage...
-
Stage: Imagerie Ultrasonore du Flux Vectoriel du Sang
il y a 10 heures
Vandœuvre-lès-Nancy, France Institut national de recherche et de sécurité Temps pleinUn institut de recherche en santé recherche un(e) stagiaire pour développer des algorithmes de traitement du signal ultrasonore afin de prévenir des pathologies dues aux vibrations. Ce stage implique la modélisation et la mise en œuvre d'expérimentations pratiques au laboratoire. Les candidats doivent être en Master 2 ou école d'ingénieur,...
-
Stage: Conseiller Clientèle Junior – Banque
il y a 10 heures
Vandœuvre-lès-Nancy, France Societe Generale Temps pleinUne grande banque française recherche un Conseiller de clientèle Essentiel Junior pour un stage de 3 mois à Vandœuvre-lès-Nancy. Vous accompagnerez les clients dans leurs projets tout en offrant une expérience de service exceptionnel. Les candidats doivent être étudiants en Bac+2/3 avec une spécialisation en banque/finance. Le poste nécessite de...
-
Stage M2: Covoiturage Étudiant – Hybride RL et Planif
il y a 8 heures
Vandœuvre-lès-Nancy, France CESI Temps pleinUn laboratoire d'innovation numérique en France recherche un stagiaire Master 2 pour développer un système hybride d’optimisation du covoiturage étudiant. Le candidat devra travailler sur des méthodes d'apprentissage par renforcement et d’optimisation pour gérer les demandes spontanées dans un cadre dynamique. Ce stage offre une chance...
-
Stage M 2
il y a 1 semaine
Vanduvre-lès-Nancy, Grand Est, France CESI Temps pleinIntégrer Linéact au sein de CESI pour un stage de recherche serait une formidable opportunité de contribuer à des projets innovants, tout en approfondissant mes compétences dans un environnement à la pointe de la transformation numérique et de l'industrie 4.0.Travaux de RechercheSujet de thèse/ stage résuméDéveloppement et implémentation d'une...
-
Chargé de Mission Energies Renouvelables
il y a 6 jours
Vandœuvre-lès-Nancy, France Biotope Temps plein**Votre objectif est de faire de votre passion un métier ? Chez Biotope nous avons ce qu’il vous faut !** Depuis plus de 30 ans, Biotope a l’ambition de faire évoluer les pratiques et d’accompagner les acteurs dans l’évaluation des impacts directs et indirects de leurs projets sur la biodiversité. Nos implantations en France Métropolitaine, en...
-
Stage Master 2
il y a 1 jour
54600 Villers-lès-Nancy, France Inria Temps plein**Type de contrat **:Convention de stage **Niveau de diplôme exigé **:Bac + 5 ou équivalent **Fonction **:Stagiaire de la recherche **Contexte et atouts du poste**: **Dans le cadre d’un partenariat** - collaboration entre 2 équipes Inria : RESIST et CARAMBA, Contexte: Les véhicules connectés utilisent des protocoles de communication basés sur...
-
Chargé D’études Faune « Suivi de Chantier
il y a 6 jours
Vandœuvre-lès-Nancy, France Biotope Temps plein**Votre objectif est de faire de votre passion un métier ? Chez Biotope nous avons ce qu’il vous faut !** Depuis plus de 30 ans, Biotope a l’ambition de faire évoluer les pratiques et d’accompagner les acteurs dans l’évaluation des impacts directs et indirects de leurs projets sur la biodiversité. Nos implantations en France Métropolitaine, en...