Modèles à base d'arbres explicables et contrôlables, applications sur cas réels

il y a 1 semaine


Paris, Île-de-France Artefact Temps plein

Contexte

Offre de stage de recherche de master d'une durée de 4 à 6 mois, débutant au printemps 2025. Ce document liste les possibles directions pour le stage, qui seront ajustées au fil du stage. L'étudiant aura accès à des données réelles et sera confronté à des cas concrets (qui seront précisées en début de stage). Ce stage aura lieu au sein du pôle Data Science (DS) d'Artefact et du centre de recherche d'Artefact. Le/La stagiaire sera encadré(e) à la fois par un data scientist du pôle DS mais aussi par un doctorant.

Présentation d'Artefact :

Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée  en délivrant des résultats tangibles sur l'ensemble de la chaîne de valeur des entreprises.  

L'approche unique d'Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d'atteindre leurs objectifs business de façon dédiée et efficace. Nos 1000 employés allient leurs compétences pluridisciplinaires au profit  de l'innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles  garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu'à la formation et l'accompagnement au changement.

Sujet :

Intégré au sein du centre de recherche et du pôle DS, vous réaliserez à la fois une mission de conseil en tant que data scientist, et aurez des jours dédiés à des travaux de recherche en tant que chercheur. L'équilibre visé est une moitié du temps en mission et une moitié en recherche, et les sujets traités en missions seront liés à vos travaux de recherche.Le but est pour le stagiaire de monter en compétence sur la partie conseil en data science (bonnes pratiques de code, analyse du besoin clients, démarches de gestion de projet en mission…), mais aussi de travailler sur un sujet de recherche plus prospectif.

La thématique centrale du stage est l'assortiment de magasins. Un supermarché propose généralement environ produits, tandis que la centrale d'achat d'un distributeur en répertorie plus de Les distributeurs doivent donc sélectionner les produits à vendre dans chaque magasin. Historiquement, cette sélection est réalisée manuellement, et repose beaucoup sur l'expérience métier. Cette approche classique n'exploite que peu la grande quantité de données disponibles, à commencer par la notion de panier. Ces produits achetés ensemble par les clients sont révélateurs des préférences des clients et notamment de la complémentarité entre les produits.

L'objectif du distributeur est de proposer un assortiment optimal, c'est-à-dire un ensemble de produits à mettre en rayon qui maximise un objectif prédéfini : le revenu final attendu, la marge moyenne ou le volume des ventes hebdomadaires [1]. Ce choix dépend de la stratégie du groupe ainsi que des catégories de produits. Le problème est généralement résolu en deux étapes successives. La première étape consiste à estimer l'utilité attribuée par les clients à un produit dans un assortiment donné. Cette utilité doit tenir compte des phénomènes de substitution et de cannibalisation entre les produits, ainsi que des préférences des clients. La deuxième étape consiste à proposer un ensemble optimal de produits en fonction de l'utilité calculée pour chaque produit. Cette optimisation prend généralement en compte des contraintes supplémentaires définies par les category managers ou la chaîne d'approvisionnement, par exemple.

Approche pour le stage: baseline & deep learning

Les approches historiques utilisent une représentation linéaire de l'utilité client [2]. Des travaux récents [3] montrent que l'introduction de fonctions non linéaires permet de mieux représenter l'hétérogénéité des clients dans la fonction de décision. Les réseaux de neurones ont montré un grand succès dans la compréhension des interactions entre mots ou pixels. En particulier, Word2Vec [4][5] a créé des embeddings de mots significatifs avec une architecture très simple. Plus récemment, les Transformers [6][7] ont révolutionné le traitement du langage, avec une capacité extraordinaire à traiter et à générer des textes de plus en plus longs.

Objectifs :

Dans ce contexte, nous visons à utiliser les données des tickets de caisse pour mieux comprendre les interactions entre les produits. Avec des milliers de clients par jour, un supermarché dispose de jeux de données à très grande échelle reflétant les préférences d'achat.

Nous avons montré qu'en utilisant les données des paniers d'achats, il est possible d'obtenir des embeddings de produits qui ont du sens. L'objectif de ce stage sera d'approfondir ces résultats et d'utiliser des modèles récents de deep learning pour construire des fonctions de décision client. Ces fonctions de décision nous permettront de comprendre comment la présence ou l'absence d'un produit influence le client et comment construire l'assortiment optimal. Un point important du stage sera de comparer ces approches à une baseline - à implémenter - afin de démontrer son efficacité. Si le temps le permet, les modèles pourront être intégrés à la librairie open-source choice-learn [8].

Pré-requis

Le profil recherché pour ce poste est le suivant :

  • BAC+4/BAC+5 : Formation en machine learning/statistiques au sein d'une université ou école d'ingénieur
  • Stage de deuxième partie de césure ou stage de fin d'études
  • Date de début :  printemps 2025
  • Durée : 4 à 6 mois

Références

[1] Rooderkerk, Robert P., Harald J. Van Heerde, and Tammo HA Bijmolt. "Optimizing retail assortments." Marketing Science :

[2] McFadden, Daniel. "Conditional logit analysis of qualitative choice behavior."

[3] Aouad, Ali, and Antoine Désir. "Representing random utility choice models with neural networks." arXiv preprint arXiv:

[4] Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:

[5]Ruiz, Francisco JR, Susan Athey, and David M. Blei. "SHOPPER: a probabilistic model of consumer choice with substitutes and complements." (2020): 1-27.

[6] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems

[7] Hanzhao Wang, Xiaocheng Li, Kalyan Talluri, "Transformer Choice Net: A Transformer Neural Network for Choice Prediction", arXiv(2023)

[8] Auriau, Vincent, Ali Aouad, Antoine Désir, and Emmanuel Malherbe. "Choice-Learn: Large-scale choice modeling for operational contexts through the lens of machine learning." Journal of Open Source Software 9, no : 6899.



  • Paris, Île-de-France Association Bilan Carbone Temps plein

    Exploration causale et explicabilité des relations entre variables dans les Bilans Carbone : vers une compréhension fine et vérifiable des émissions organisationnelles.Qui sommes-nous ?Le Laboratoire d'Informatique de Paris 6 (LIP6 – Sorbonne Université) est une unité de recherche de référence en intelligence artificielle explicable et en...

  • YourCareer: STAGE PFE

    il y a 2 semaines


    Paris, Île-de-France Liebherr Temps plein

    ContexteLiebherr-Aerospace Toulouse SAS, filiale du Groupe Liebherr, conçoit, fabrique et assure la maintenance de systèmes de traitement de l'air pour l'aéronautique. Reconnue comme un systémier de référence parmi les leaders mondiaux, la société accompagne les avionneurs, hélicoptéristes et compagnies aériennes dans le développement de leurs...


  • Paris, Île-de-France Ekimetrics Temps plein

    Ekimetrics est leader en data science et fournisseur de solutions AI. Depuis 2006, nous utilisons la data science au service de l'optimisation de performance marketing, business et de la transition vers une performance plus durable.   Si vous êtes passionné.e de data, ou de technologie en général, et que vous avez envie d'être de votre avenir...


  • Paris, Île-de-France Ekimetrics Temps plein

    Ekimetrics est leader en data science et fournisseur de solutions AI. Depuis 2006, nous utilisons la data science au service de l'optimisation de performance marketing, business et de la transition vers une performance plus durable.Si vous êtes passionné.e de data, ou de technologie en général, et que vous avez envie d'être de votre avenir...


  • Paris, Île-de-France Winamax Temps plein

    Basés en plein cœur de Paris, nous faisons bouger l'industrie des jeux en ligne. Leader du poker et des paris sportifs en France avec joueurs et parieurs mensuels, nous sommes présents en Espagne, en Allemagne et bientôt en Italie et au Portugal. Nous offrons à nos joueurs une expérience exceptionnelle, à la fois technique, créative et qualitative....

  • Machine Learning Engineer

    il y a 1 semaine


    Paris, Île-de-France Lifen Temps plein

    Chez Lifen, nous pensons que les données médicales ont le potentiel de transformer le système de santé. Mais seulement si elles sont accessibles. Plus de données accessibles → moins de charge administrative, une meilleure coordination des soins et des découvertes scientifiques plus rapides. Depuis 2015, notre mission est de libérer ce potentiel. Nos...


  • Paris, Île-de-France Choisir le Service Public Temps plein

    Informations générales Organisme de rattachement Météo France   Référence Date de début de diffusion /01/2026 Date de parution /01/2026 VersantFonction Publique de l'Etat CatégorieCatégorie A (cadre) Nature de l'emploiEmploi ouvert aux titulaires et aux contractuels Domaine / MétierRecherche - Experte / Expert en instrumentation et...


  • Paris, Île-de-France Verallia Temps plein

    Notre passion le verre – Notre inspiration c'est vous.Verallia, un excellent choix pour développer votre potentiel et apporter votre contribution pour un avenir durable.Verallia est le leader européen et le troisième producteur mondial de verre, fournissant à ses clients des emballages en verre de qualité exceptionnelle depuis plus de deux cents ans....


  • Paris, Île-de-France Choisir le Service Public Temps plein

    Informations générales Organisme de rattachement Ecole supérieure de physique et de chimie industrielles de la Ville de Paris   Référence Date de début de diffusion /01/2026 Date de parution /01/2026 VersantFonction Publique Territoriale CatégorieCatégorie A (cadre) Nature de l'emploiEmploi ouvert aux titulaires et aux contractuels Domaine...


  • Paris, Île-de-France Ekimetrics Temps plein

    Ekimetrics est un leader mondial de l'efficacité marketing et commerciale et des solutions d'IA à l'échelle. Depuis 2006, nous aidons les entreprises à optimiser leur marketing et leurs opérations en combinant IA avec expertise business et technologique dans 4 domaines : Marketing & commercial effectiveness,...