Stage: Modèles à Base D'arbres Explicables Et

Il y a 2 mois


Paris, France LinkedIn Job Wrapping Temps plein

**Contexte**: Offre de stage de recherche de fin de master 2023 d'une durée de 5 mois, débutant en avril, pouvant déboucher sur une thèse CIFRE, débutant en septembre 2023. Ce document liste les possibles directions pour le stage, qui seront déterminées selon les goûts du stagiaire. Ces directions constituent également les développements qui pourront être menés durant la thèse. Dès le stage, l'étudiant aura accès à des données clients et sera confronté à des cas concrets (qui seront précisées en début de stage). L'objectif général est double: proposer une solution technique à un problème métier avéré; formaliser et publier les travaux, ce que nos contrats avec nos clients permettent. Enfin, à plus long terme, ces publications pourront prendre la forme de package open-source, ce qui est déjà une pratique courante chez Artefact.

**Présentation d'Artefact**:
Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée en délivrant des résultats tangibles sur l'ensemble de la chaîne de valeur des entreprises.

L'approche unique d'Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d'atteindre leurs objectifs business de façon dédiée et efficace. Nos 1000 employés allient leurs compétences pluridisciplinaires au profit de l'innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu'à la formation et l'accompagnement au changement.

**Présentation du laboratoire académique - CMAP (Ecole polytechnique - IP Paris)**

**Problématique industrielle du stage**:
Les modèles à base d'arbres, tels que les forêts aléatoires ou les adaptations du gradient boosting (XGboost, Catboost, LightBM), sont régulièrement choisis et déployés dans des projets industriels impliquant du machine learning. Ceci s'explique avant tout par leur performance prédictive observée dans les tâches supervisées, et une facilité "prêt à l'emploi" qui ne requiert pas ou peu de préparation des données. Cependant, ces modèles rentrent dans la catégorie "black box" dans le sens où la combinaison d'un grand nombre d'arbres ne permet plus de comprendre facilement comment est générée la prédiction. De la même manière, il n'est pas facile de contrôler un arbre, si par exemple l'expertise métier s'attend à un certain type de résultat mais ne correspond pas aux prédictions (typiquement: attendre un apport toujours positif d'une variable donnée, comme les promotions qui doivent augmenter les ventes). C'est une difficulté récurrente dans les projets d'Artefact qui utilisent cette famille de modèles, et dans le cadre du stage, l'étudiant aura accès à des données industrielles de nos clients afin de développer, d'expérimenter et de confronter ses solutions à des cas concrets.

**Questions de modélisation**:
L'explicabilité des modèles à base d'arbres couvre plusieurs axes. La liste ci-dessous les décrit avec un niveau de détails léger, pour illustrer la richesse du sujet en gardant ouvert le champ des possibles.
- **Explicabilité**:
- _Locale_ (par observation): raccrocher la prédiction à un modèle "facilement compréhensible", par exemple en interprétant la prédiction d'une forêt/XGBoost par un modèle additif. En effet, les valeurs SHAP décomposent la prédiction en termes additif (et homogène avec y). Les limites de l'existant sont que des profils non technique ne comprennent pas ou peu ces explications. Une raison est que les variables d'entrée ne reflètent pas leur compréhension métier (exemple: one-hot vector pour une variable catégorielle - leur compréhension serait d'expliquer au niveau de la catégorie dans son ensemble). Une solution récurrente est d'utiliser un nearest neighbor pour illustrer la valeur Y d'un cas très proche dans la base. Ce qui pose la question de la cohérence entre le modèle à base d'arbre et ce NN.
- _Globale_: alternative aux features importance des forêts, qui donnent un pourcentage à chaque feature. Un idéal serait d'expliciter les "raisonnements" appris sur le data-set, là où un score par feature reste très haut niveau.
- _Visualisation_: dans les 2 cas, la question de représentation de ces explications est un axe important de compréhension de l'utilisateur/client. Des problématiques, par exemple avec les one-hot vectors, peuvent trouver une réponse sur la visualisation des valeurs en gardant la même méthodologie.
- **Incertitude**: Enrichir la prédiction brute du modèle par une notion d'incertitude (e.g., variance dans le cas d'une régression) apporte aussi une valeur explicative au modèle (exemple; quand l'input est trop différente du dataset d'entraînement, l'incertitude l'annonce). Il existe de récentes ap



  • Paris, France Parc Naturel Régional des Boucles de la Seine Normande Temps plein

    Date de publication de l'offre 13 - 31/01/2023 Catégorie de métier Gestion des espaces naturels Nom de l'organisme Parc Naturel Régional des Boucles de la Seine Normande Contexte Dans le cadre de sa mission de préservation du patrimoine naturel, le Parc est gestionnaire d’une quinzaine d’espaces naturels en vallée de Seine. Environ 1000...


  • Paris, France Collectivité européenne d'alsace Temps plein

    Date de publication de l'offre 28/06 - 28/10/2023 Type d'emploi - Service civique Nom de l'organisme Collectivité européenne d'alsace voir fichier joint - Mission Inventorier et valoriser les arbres remarquables alsaciens (mesures dendrométriques photos sur le terrain, rencontres avec les communes propriétaires ) compléter la base de données sous...


  • Paris 11e, France BASE Temps plein

    BASE Paris, agence d’une quarantaine de collaborateurs paysagistes et urbanistes recrute un stagiaire (H/F) pour travailler en tant qu’Assistant Administratif et Comptabilité. Description des missions: En relation avec le service comptabilité, vous serez chargé(e) d’assister le/la responsable dans les missions quotidiennes, notamment: -...


  • Paris, France IGN Temps plein

    L’équipe produit géodésie du Service de géodésie et de métrologie de l’IGN est en charge du calcul de surfaces de conversion altimétrique. Avec le développement des techniques de positionnement GNSS, ces surfaces sont devenues des références dans différents secteurs liés au géopositionnement. Des exigences de précisions croissantes...


  • Paris, France BRGM Temps plein

    BRGM - Le BRGM recherche pour sa Direction Risques et Prévention, en collaboration entre l'unité Risques Côtiers et Changements Climatiques et l'unité Risques Sismiques et Volcaniques, un-e stagiaire pour travailler sur la modélisation de sources sismiques complexes à l'origine de tsunamis. Pour caractériser la variabilité spatiale du glissement,...


  • Paris, France IGN Temps plein

    L’Institut National de l’Information Géographique et Forestière (IGN) a, entre autres, la vocation d’élaborer et de mettre à jour l’inventaire permanent des ressources forestières en France métropolitaine. Au sein de la Direction des Opérations et des Territoires, le Service de l’Information Statistique Forestière et Environnementale...


  • Paris, France Hiram Finance Temps plein

    **Votre mission** Le stage répond à un objectif principal : implémenter et calibrer un modèle de risque appliqué aux risques climatiques (Modèle de Merton à multi-facteurs, avec une calibration stochastique), suivant les scénarios du GIEC Vous aurez ainsi à mener les travaux suivants: - Étude mathématique et financière du modèle -...


  • Paris, France INERIS Temps plein

    **OFFRE DE STAGE** **Modélisation de la fissuration induite en paroi des cavités salines de stockage** **d’hydrogène** Nos réf. : Ineris - 204785 - 2762019 **Date de publication **:15/02/2023 **Lieu **:Verneuil-en-Halatte (60) - accessible en transports en commun, à 40 mn au Nord de Paris **Type de contrat **:stage **Durée**: 6 mois **CONTEXTE** Le...


  • Paris, France Caisse des Dépôts et Consignations Temps plein

    Missions et activités principales Le poste est rattaché au Responsable du service Modélisation de la Direction des Risques du Groupe (DRG). Missions L'apprenti.e chargé.e de modélisation crédit participera avec les collaborateurs du pôle Modélisation, et sous leur supervision, aux missions suivantes : Mise en place et maintenance des modèles...


  • Paris, France Caisse des Dépôts et Consignations Temps plein

    Missions et activités principales Le poste est rattaché au Responsable du service Modélisation de la Direction des Risques du Groupe (DRG). Missions L'apprenti.e chargé.e de modélisation crédit participera avec les collaborateurs du pôle Modélisation, et sous leur supervision, aux missions suivantes : Mise en place et maintenance des modèles...


  • Paris, France Caisse des Dépôts et Consignations Temps plein

    Missions et activités principales Le poste est rattaché au Responsable du service Modélisation de la Direction des Risques du Groupe (DRG). Missions L'apprenti.e chargé.e de modélisation crédit participera avec les collaborateurs du pôle Modélisation, et sous leur supervision, aux missions suivantes : Mise en place et maintenance des modèles...

  • Offre de Stage

    il y a 2 jours


    Paris 8e, France Hiram Finance Temps plein

    **Votre mission**: Le stage répond à un objectif principal : implémenter et calibrer un modèle de risque appliqué aux risques climatiques (Modèle de Merton à multi-facteurs, avec une calibration stochastique), suivant les scénarios du GIEC Vous aurez ainsi à mener les travaux suivants: - Étude mathématique et financière du modèle -...


  • Paris, France Crédit Agricole Assurances Temps plein

    Description du poste - Contexte et objectif du poste: - Au sein de la Direction de l'Actuariat Pôle Vie, vous serez rattaché à l’équipe Modélisation et Analyses Prospectives constituée de 9 personnes. - Vous serez amené à réaliser différents types de missions sur des sujets tels que: - Solvabilité 2 & IFRS 17 : production d'indicateur,...


  • Paris 9e, France Numberly Temps plein

    Description de l'entreprise Numberly est reconnu comme l’un des meilleurs spécialistes mondiaux du Data Marketing avec près de 500 collaborateurs et 8 bureaux dans le monde au service de plus de 500 clients de premier plan (L’Oréal, P&G, Groupe Seb, HSBC ). En mettant la technologie au service des marques et des consommateurs, Numberly est au cœur...


  • Paris 9e, France Numberly Temps plein

    Description de l'entreprise Numberly est reconnu comme l’un des meilleurs spécialistes mondiaux du Data Marketing avec près de 500 collaborateurs et 8 bureaux dans le monde au service de plus de 500 clients de premier plan (L’Oréal, P&G, Groupe Seb, HSBC ). En mettant la technologie au service des marques et des consommateurs, Numberly est au cœur...


  • Paris 9e, France Numberly Temps plein

    Description de l'entreprise Numberly est reconnu comme l’un des meilleurs spécialistes mondiaux du Data Marketing avec près de 500 collaborateurs et 8 bureaux dans le monde au service de plus de 500 clients de premier plan (L'Oréal, Ipsen, Groupe Seb, Moleskine, Ouigo, Maje, HSBC ). En mettant la technologie au service des marques et des consommateurs,...


  • Paris, France Voyageurs D Temps plein

    À propos de nousOsez l'aventure et transformez votre passion en carrière ! Depuis plus de 45 ans, nous explorons le monde avec une curiosité insatiable et une passion intacte pour organiser des voyages inoubliables ! Spécialiste de la randonnée, du trekking et du voyage à vélo, Terres d’aventure est le numéro 1 du voyage d’aventure faisant...


  • Paris, France Voyageurs D Temps plein

    À propos de nousOsez l'aventure et transformez votre passion en carrière ! Depuis plus de 45 ans, nous explorons le monde avec une curiosité insatiable et une passion intacte pour organiser des voyages inoubliables ! Spécialiste de la randonnée, du trekking et du voyage à vélo, Terres d’aventure est le numéro 1 du voyage d’aventure faisant...


  • Paris, France Crédit Agricole Assurances Temps plein

    Description du poste Environnement de la BU/SU : Chez Crédit Agricole Assurances (CAA), la Direction de lAudit des Assurances (DAA), en tant que 3ème ligne de défense de la compagnie, effectue des missions ponctuelles pour analyser le correct fonctionnement des différentes entités du groupe CAA au regard de la règlementation et des...


  • Paris, France Crédit Agricole Assurances Temps plein

    Description du poste Environnement de la BU/SU : Chez Crédit Agricole Assurances (CAA), la Direction de lAudit des Assurances (DAA), en tant que 3ème ligne de défense de la compagnie, effectue des missions ponctuelles pour analyser le correct fonctionnement des différentes entités du groupe CAA au regard de la règlementation et des...