Modèles à base d'arbres explicables et contrôlables, applications sur cas réels

il y a 1 jour


Paris, Île-de-France Artefact Temps plein
Présentation d'Artefact

Artefact est une société internationale de services autour de la data et l'IA, dont la mission est de transformer la donnée  en délivrant des résultats tangibles sur l'ensemble de la chaîne de valeur des entreprises.  L'approche unique d'Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d'atteindre leurs objectifs business de façon dédiée et efficace. Nos 1700 employés allient leurs compétences pluridisciplinaires au profit  de l'innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles  garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu'à la formation et  l'accompagnement au changement. Le centre de recherche d'Artefact comporte 20 membres et est dédié à améliorer les modèles de machine learning, afin de les rendre plus transparents et contrôlables. Sa recherche est intégralement open source, à travers des publications scientifiques et des packages en licence libre.

Présentation du laboratoire académique – LPSM (Sorbonne Université)

Le Laboratoire de Probabilités, Statistique et Modélisation (LPSM, UMR 8001) est une unité mixte de recherche dédiée aux mathématiques de l'aléatoire et des données. Les thèmes de recherche du LPSM concernent des domaines très variés et couvrent aussi bien des mathématiques fondamentales que des applications et des interactions dans de nombreuses disciplines : sciences des données, médecine, sciences humaines, sciences de la vie, physique, finance, actuariat, etc. Au total, le laboratoire compte environ 200 membres (env. 90 personnels permanents). L'étudiant sera encadré du côté académique par Erwan Scornet, enseignant-chercheur au LPSM depuis 2023, travaillant sur les thématiques des forêts aléatoires et de l'interprétabilité.

Contexte

Offre de stage de recherche de fin d'études d'une durée de 4 à 6 mois, débutant au printemps 2026, pouvant déboucher sur une thèse CIFRE, débutant en septembre 2026. Cette offre liste les possibles directions de recherche, qui seront affinées durant le stage. Ces directions constituent également les développements qui pourront être menés durant la thèse. Dès le stage, l'étudiant aura accès à des données entreprise et sera confronté à des cas concrets. L'objectif général est double : proposer une solution technique à un problème métier avéré ; formaliser et publier les travaux sous la forme d'articles scientifiques et diffuser ses travaux lors de présentations en conférences internationales.

Cas d'application
Les travaux porteront sur un cas d'application récurrent du machine learning classique : l'utilisation des modèles à base d'arbre (forêt aléatoire, Gradient Boosting, XGBoost) pour la prédiction sur des séries temporelles. Le cadre métier et illustratif sont les modèles de forecasting, qui prédisent les ventes futures de différents produits, par exemple de la grande distribution. Les séries temporelles sont donc les ventes historiques, produit par produit. Une variable d'entrée particulièrement importante dans ce cadre est le prix, qui impacte fortement la prédiction, et qui fait l'objet de manipulations par des utilisateurs métier, voire est automatiquement optimisé pour un objectif donné (campagne de promotion, pricing). Le stage commencera par évaluer quantitativement les limites de l'existant sur un jeu de données de vente interne d'un grand groupe de distribution français. Dans l'hypothèse de la thèse, le cas d'application pourra évoluer, et ne sera pas strictement maintenu sur le forecasting.

Problématiques Scientifiques

Les modèles de forecasting ont besoin d'être entraînés sur un gros volume de données (XGBoost [4] ou LightGBM [5] étant gourmands), l'état de l'art est de regrouper toutes les séries temporelles des produits pour l'entraînement [8] (approche dite du "global model"), et donc, mélanger des produits différents. Les implémentations existantes couramment utilisées sont les packages XGBoost, LightGBM et Gradient Boosting de scikit-learn. Les questions de recherches identifées par Artefact sur ces modèles sont multiples, en voici la description, avec les implications dans le cas de prédiction de volumes de vente:

  • Contrainte de monotonie

Cette contrainte est une décision de l'utilisateur en amont de l'apprentissage, pour une variable d'entrée donnée. Elle garantit que les prédictions du modèle respecteront strictement la croissance ou décroissance selon cette variable. Il existe des méthodologies existantes, qui assurent la contrainte en imposant à chaque nœud des bornes supérieures et inférieures aux prédictions possibles, les coupures menant à des prédictions hors de ces bornes étant exclus lors de la recherche de la coupure optimale [1]. Ces bornes sont récursivement imposées à chaque coupure faite sur la variable de contrainte monotone, avec comme borne intermédiaire (supérieure pour le nœud de gauche et inférieure pour le nœud de droite) la moyenne entre les bornes supérieures et inférieures précédentes, selon le principe détaillé dans [6]. Ces méthodes de la contrainte monotone ne sont pas satisfaisantes, car la contrainte imposée est globale : (i) elle est trop stricte pour l'approche "global model", qui mélange des séries temporelles, qui n'a besoin de contrainte qu'à l'échelle de la série ; (ii) prendre la moyenne des bornes pour imposer récursivement des bornes n'est pas optimal, et reste indépendant de la distribution des données ; (iii) les prédictions finales restent constantes par morceau ("en escalier", comme pour tout modèle à base d'arbre), alors que la connaissance externe d'une contrainte monotone nous amène à imaginer une courbe plus régulière ; (iv) cette approche est récursive (dite "greedy"), alors que les bornes pourraient être ajustées selon les coupures ultérieures, ce qui impacterait néanmoins le temps de calcul [7].

  • Features importance

Il existe plusieurs approches pour attribuer un pourcentage d'importance globale aux variables d'entrée, à l'issue de l'apprentissage [9]. Généralement, cette importance provient de la mesure d'impureté associée aux coupures selon ladite variable, ou de la perte de précision du modèle lorsque sont permutées aléatoirement les valeurs de la variable sur des points de validation. Ces méthodes sont habituellement satisfaisantes, mais présentent un risque dans le cas de l'approche "global model" : en effet, si une variable est utilisée pour distinguer la série temporelle avec les autres, comme une feature discriminative, alors elle aura une importance élevée. Cependant, dans le cas de forecasting, l'importance attendue par les utilisateurs est à l'échelle de la série temporelle, et ne doit pas comporter des composantes "discriminantes". Afin de pouvoir proposer une méthodologie améliorée pour estimer ces features importances corrigées, nous ferons l'hypothèse que l'information de l'ID de la série temporelle sera donnée lors de l'apprentissage. Ce point pourra aussi être étendu aux SHAPley values, qui peuvent être considérées comme des features importances locales, pour un échantillon donné.

  • Causalité

Une variante des forêts aléatoires existe pour capturer les effets de causalité, basé sur les generalized random forests [10], appelées les forêts causales (Causal Forests [11]). Ces modèles ont besoin de savoir si le traitement a été appliqué ou non, ce qui constitue donc une variable d'entrée, à priori binaire. Cela est particulièrement pertinent dans notre cas d'application pour les changements de prix ou les promotions, qui permettent idéalement de capturer l'élasticité au prix, mais sont en pratique observées avec de nombreux autres phénomènes. Il a été proposé un modèle pour isoler l'impact du prix (ou plus généralement du traitement) des autres patterns de vente, SDID (Synthetic differences in difference [12]), qui est cependant basé sur un modèle linéaire. Dans une logique avant tout applicative, un sujet sera d'expérimenter les forêts causales sur nos données, ce qui nécessitera en premier lieu de préparer les données pour exprimer le traitement, c'est-à-dire identifier les périodes de promotions ou de changements de prix.

  • Données manquantes

Une force des modèles à base d'arbre est de prendre en compte nativement les données manquantes, ce qui peut être utile pour, dans un premier temps, imputer les données  (MissForest, [13]), ou pour entraîner un modèle à base d'arbres sur des données incomplètes [14]. Dans notre cadre des séries temporelles, il y a une donnée généralement manquante, qui est l'information de pénurie du produit ("out of stock"). Elle est en effet partiellement renseignée, et n'est pas toujours fiable. Or cette donnée est d'un grand intérêt pour le secteur de la grande distribution, que ce soit pour l'avoir de façon plus fiable (et ainsi mieux organiser le réapprovisionnement), ou pour mieux prédire les ventes futures. Il s'agit du cas de "missing at random" (MAR), qui est un cas assez complexe de données manquantes. 

Votre profil
  • Le profil recherché pour ce poste est le suivant :

    • BAC+5 : Formation en mathématiques appliquées, statistiques ou machine learning au sein d'une université ou école d'ingénieur
    • Stage de fin d'études
    • Date de début :  printemps 2026
    • Durée : 4 à 6 mois
    • Pour postuler, veuillez envoyer via email votre CV avec votre dernier relevé de notes à et


  • Paris, Île-de-France LinkedIn Job Wrapping Temps plein

    Présentation d'ArtefactArtefact est une société internationale de services de données spécialisée dans le conseil en transformation des données. Sa mission est de transformer les données en produisant des résultats tangibles sur l'ensemble de la chaîne de valeur des entreprises. L'approche unique d'Artefact, qui relie les données aux activités,...


  • Paris, Île-de-France Artefact Temps plein

    ContexteOffre de stage de recherche de master d'une durée de 4 à 6 mois, débutant au printemps 2025. Ce document liste les possibles directions pour le stage, qui seront ajustées au fil du stage. L'étudiant aura accès à des données réelles et sera confronté à des cas concrets (qui seront précisées en début de stage). Ce stage aura lieu au sein...


  • Paris, Île-de-France Association Bilan Carbone Temps plein

    Exploration causale et explicabilité des relations entre variables dans les Bilans Carbone : vers une compréhension fine et vérifiable des émissions organisationnelles.Qui sommes-nous ?Le Laboratoire d'Informatique de Paris 6 (LIP6 – Sorbonne Université) est une unité de recherche de référence en intelligence artificielle explicable et en...


  • Paris, Île-de-France ANDERSON RH Temps plein

    Nous recherchons un Administration Base de Données de 8 ans d'expérience minimumavec des compétences ci-dessous :BanqueSQL ServerPostgres SQLMySQLIBM Db2Vos missionsDescription de la mission :Assister les squads dans la création et l'évolution de leurs modèles de données :Réaliser des contrôles afin de garantir l'application des normes...


  • Paris 05 Ancien - Quartier Bon-Conseil, Île-de-France Banque de France Temps plein

    Le CMA dispose d'un modèle de projection des intérêts futurs à payer sur un stock de dette qui se renouvelle régulièrement (cas d'usage déjà en place sur la dette des entreprises de chaque pays de la zone euro ou encore sur la dette gouvernementale française). L'objectif du stage est d'étendre le modèle à la dette publique d'autres pays pour...


  • Paris, Île-de-France Ekimetrics Temps plein

    Ekimetrics est leader en data science et fournisseur de solutions AI. Depuis 2006, nous utilisons la data science au service de l'optimisation de performance marketing, business et de la transition vers une performance plus durable.   Si vous êtes passionné.e de data, ou de technologie en général, et que vous avez envie d'être de votre avenir...

  • Machine Learning Engineer

    il y a 7 jours


    Paris, Île-de-France ec-0b91-4fd1-a05e-dc94127b83a9 Temps plein

    En quelques motsCherry Pick est à la recherche d'un "Data Scientist" pour un client dans le secteur bancaireDescription? Le ContextePour le compte d?un grand groupe bancaire français, nous recherchons un expert en Data Science pour rejoindre une équipe pluridisciplinaire (Conformité, IT, Gestion de projet) en pleine transformation.Le groupe lance une...


  • Paris, Île-de-France Ekimetrics Temps plein

    Ekimetrics est leader en data science et fournisseur de solutions AI. Depuis 2006, nous utilisons la data science au service de l'optimisation de performance marketing, business et de la transition vers une performance plus durable.Si vous êtes passionné.e de data, ou de technologie en général, et que vous avez envie d'être de votre avenir...


  • Paris, Île-de-France NEXORIS Temps plein

    Notre client, un acteur financier, recherche un Business Analyst Applications partagées- Marchés financiers (H/F). Missions principales : Analyse fonctionnelle et modélisation des besoins.Rédaction de spécifications fonctionnelles et techniques.Production des livrables : RFP, cahiers de test, documentation applicative.Participation aux tests...


  • Paris, Île-de-France CEA Temps plein

    Informations générales Entité de rattachement La Direction des Applications Militaires (DAM) du CEA, au cœur des enjeux de la dissuasion nucléaire Française, cherche ses futurs talents. Organisme inclusif, le CEA est handi-accueillant : nos emplois sont ouverts à toutes et tous. Associer les forces et les compétences de chacun pour atteindre nos...