Etude de représentation de données"Interval Valued Data" pour classifieurs à données ponctuelles F/H

il y a 1 mois


Lannion, France Orange Business Services Temps plein

about the role

Contexte: Dans de nombreuses situations réelles, l'imprécision, l'incertitude ou la variabilité peuvent être présentes dans certaines données collectées. Dans ce cas les données utilisées ne sont pas des valeurs précises, ponctuelles (la température est de 10.23 degrés) mais des données à valeur d'intervalle (la température est entre 10 et 12 degrés). On parle de « Interval-Valued Data » (IVD). Par rapport aux données « ponctuelles », l’IVD peut exprimer l'incertitude et la variabilité des données. Apprendre un modèle de machine learning (on se limitera dans cette étude à la classification supervisée) qui se base sur ce type de données requiert parfois de transformer la valeur « intervalle » en une autre représentation [1].

Mission : Après l’étude menée dans [1], on cherchera à étendre ces travaux en (re)réalisant leur étude mais aussi en testant d’autres formes de représentation (tel que par exemple un simple « one hot encoding » [2] des intervalles de valeurs). Pour ce faire :

(i) un travail raisonnable de bibliographie sera à réaliser puis

(ii) un benchmark sera à réaliser versus (le travail de biblio définira les éléments de la liste ci-dessous)

(a) plusieurs classifieurs (dédiés aux données ponctuelles 1)

(b) plusieurs représentations

(c) potentiellement à plusieurs types d’IVD (à recouvrement ou sans recouvrement)

(d) et enfin sur plusieurs jeux de données, soit des jeux de données de la littérature de l’IVD, soit des jeux de données classiques sur lesquels on aurait calculé des intervalles de valeurs (ou de groupes de modalités) de manière supervisée au préalable (via un arbre, via Khiops, etc…).

Références bibliographiques :

[1] “An Interval-Valued Data Classification Method Based on the Unified Representation Frame”, 2020, IEEE Open Access, Xiaobo Qi, Husheng Guo, Zadorozhnyi Artem and Wenjian Wang

[2] “A benchmark of categorical encoders for binary classification”, 2023, NeurIPS Datasets and Benchmarks Track, Federico Matteucci, Vadim Arzamasov and Klemens Böhm

[3] “Multiclass Classification With Fuzzy-Feature Observations: Theory and Algorithms” in IEEE Transactions on Cybernetics Guangzhi Ma, Jie Lu, Feng Liu; Zhen Fang and Guangquan Zhang

(1) A priori l’étude ne s’intéressera pas aux modèles dédiés aux données IVD tel que : « Binary classification SVM-based algorithms with interval-valued training data using triangular and Epanechnikov kernels”, « Lev V. Utkin et al, Neural Networks, 2016.; ou encore “A pattern classifier for interval-valued data based on multinomial logistic regression model," 2012 IEEE International Conference on Systems, Man, and Cybernetics (SMC), A. P. de Barros, et al.

about you

Le profil souhaité est BAC + 5, Master Industriel (ou recherche) informatique et/ou statistiques ou école d'ingénieur.

Data scientist avec goût pour l’informatique et les mathématiques appliquées ; si possible ayant suivi des cours, TP, stage sur les séries temporelles

Les connaissances en Python, Scikit-learn … sont indispensables.

additional information

Proche de la mer vous serez au sein d’une équipe composée de chercheurs en Machine Learning, de Data Scientists et d’experts en machine learning dans une direction d’innovation.

department

Basée à Lannion (22), l'équipe PROF déploie son activité dans le domaine des statistiques, machine learning et intelligence artificielle, depuis des travaux fondamentaux jusqu'à l'accompagnement des unités opérationnelles d'Orange sur des cas d'usage précis.

L'équipe se compose d'une vingtaine de permanents et accueille actuellement quatre doctorants.

contract

Internship

Start date : 01 Apr 2025

Niveau d’études préparé pendant le stage Indemnité brute selon école Bac+5 de 1572 € à 2096 € / mois
  • Intervalle de données

    il y a 4 semaines


    Lannion, Bretagne, France Orange Business Services Temps plein

    ContexteL'imprécision, l'incertitude ou la variabilité peuvent être présentes dans certaines données collectées. Dans ce cas, les données utilisées ne sont pas des valeurs précises, ponctuelles, mais des données à valeur d'intervalle. On parle de « Interval-Valued Data » (IVD).Apprendre un modèle de machine learning qui se base sur...


  • Lannion, Bretagne, France Orange Business Services Temps plein

    À propos du rôleLe rôle consiste à développer des modèles de machine learning pour la classification d'intervalles de données. Ce projet vise à étendre les travaux existants en explorant de nouvelles formes de représentation des intervalles de valeurs.MissionLa mission consiste à réaliser une étude approfondie de la bibliographie existante, puis...

  • Intervalle de données

    il y a 4 semaines


    Lannion, Bretagne, France Orange Business Services Temps plein

    ContexteL'imprécision, l'incertitude ou la variabilité peuvent être présentes dans certaines données collectées. Dans ce cas, les données utilisées ne sont pas des valeurs précises, ponctuelles, mais des données à valeur d'intervalle. Apprendre un modèle de machine learning qui se base sur ce type de données requiert parfois de...

  • Intervalle de données

    il y a 4 semaines


    Lannion, Bretagne, France Orange Business Services Temps plein

    ContexteL'équipe de recherche d'Orange Business Services travaille sur la classification de données à valeur d'intervalle. Ce type de données est courant dans les situations où les mesures sont imprécises ou variables. Nous recherchons un développeur de modèles de classification pour travailler sur des algorithmes de classification...

  • Stage de recherche

    il y a 4 semaines


    Lannion, France Orange Business Services Temps plein

    about the role #python #scikit-learn #machinelearning Ce stage a pour objectif d'explorer l'intégration du concept drift dans le cadre de la classification de données temporelles multi-table, en utilisant des données relationnelles fournies par Orange. Ces données couvrent divers domaines, tels que l'expérience client, la satisfaction et la...

  • Stage recherche

    il y a 4 semaines


    Lannion, France Orange Business Services Temps plein

    about the role #watermarking #privacy #modèlegénératif Contexte : Que ce soit sous forme de tableaux de données marketing ou de logs réseau/machines, les données tabulaires sont omniprésentes chez Orange. Mais une grande part de ces données contient des informations privées (noms, adresses, numéros de téléphones etc.)....


  • Lannion, Bretagne, France Orange Business Services Temps plein

    Objectif du stageLe stage a pour objectif de développer des approches robustes et adaptatives pour détecter et s'ajuster aux changements dans les données multi-table, afin d'optimiser les performances des analyses prédictives et détecter les nouveaux comportements sur la durée.MissionsPlacer le concept drift dans la cadre de la classification sur...


  • Lannion, Bretagne, France Orange Business Services Temps plein

    Objectif du stageLe stage a pour objectif de développer des approches robustes et adaptatives pour détecter et s'ajuster aux changements dans les données multi-table, afin d'optimiser les performances des analyses prédictives et détecter les nouveaux comportements sur la durée.MissionsVous serez chargé de placer le concept drift dans la cadre de la...


  • Lannion, France Orange Business Services Temps plein

    about the role #Machinelearning #IA #apprentissageautomatique #PyTorch #scikit-learn #optuna Contexte : Que ce soit sous forme de tableaux de données marketing, de logs réseau ou de logs machines, les données tabulaires sont omniprésentes chez Orange. Les avancées des réseaux de neurones, en particulier des transformers, sont indéniables...

  • Assistant Comptable

    Il y a 2 mois


    Lannion, France TGS France Temps plein

    **Qui sommes-nous?** **TGS France : un groupe engagé et durable** Portés par les relations humaines, l’inclusion et l’engagement, nos 1700 collaborateurs ont à cœur de travailler ensemble pour apporter à nos clients une offre de service globale et durable au travers d’une pluralité de métiers : Audit, Avocats, Conseil, Expertise comptable,...


  • Lannion, Bretagne, France Orange Business Services Temps plein

    Rôle Dans le cadre de l'équipe Machine Learning & PROFiling d'Orange Innovation, nous recherchons un spécialiste en modélisation de données pour contribuer à l'anonymat et à la traçabilité de données sensibles. Vos compétences en intelligence artificielle et en traitement de données vous aideront à concevoir des modèles de...


  • Lannion, France Orange Business Services Temps plein

    Profil Chez Orange Innovation, la direction Data AI vise à promouvoir l'utilisation des données et de l'Intelligence Artificielle, en collaborant étroitement avec les pays où Orange est présent, afin de répondre à leurs besoins métier. Dans cette dynamique, l’équipe DESKIN crée des produits et services basés sur des technologies d’IA,...


  • Lannion, Bretagne, France Adsearch Temps plein

    Adsearch propose des opportunités de carrières pour les profils d'experts, cadres et managers. Que ce soit pour un emploi ou pour une mission, Adsearch est le cabinet de recrutement qu'il vous faut. Retrouvez toutes nos offres d'emploi sur notre site internet. Missions clés : - Formation des clients : Accompagner dans l'utilisation des...


  • Lannion, Bretagne, France Orange Business Services Temps plein

    ContexteLes données tabulaires sont omniprésentes chez Orange, mais les avancées des réseaux de neurones sont moins efficaces que les outils d'apprentissage automatique classiques. L'objectif de ce stage est d'améliorer la méthode de masquage d'attention pour traiter les valeurs manquantes.Compétences requisesIngénieur ou master en...

  • Stage - NLP Data Scientist F/H

    il y a 4 semaines


    Lannion, France Orange Business Services Temps plein

    about the role *Sujet du stage  : Conception d'une métrique automatique pour l'évaluation des textes générés. *Contexte : De nombreuses mesures automatiques ont été proposées pour évaluer les capacités génératives des modèles de langage [1, 4-6, entre autres]. Cependant, la plupart de ces études se concentrent principalement sur...


  • Lannion, Bretagne, France Orange Business Services Temps plein

    A propos du posteCe stage a pour objectif d'améliorer une méthode de traitement des variables manquantes dans les données tabulaires en utilisant le masquage d'attention. Les données tabulaires sont omniprésentes dans divers domaines, notamment marketing et réseau. Malgré l'avancée des réseaux de neurones, ils sont inefficaces sur les...


  • Lannion, Bretagne, France Orange Business Services Temps plein

    ContexteLes données tabulaires sont omniprésentes chez Orange, mais les avancées des réseaux de neurones sont moins efficaces que les outils d'apprentissage automatique classiques. Le stage consiste à améliorer la méthode de masquage d'attention pour gérer les valeurs manquantes et à évaluer son efficacité par rapport à l'imputation...


  • Lannion, France Orange Temps plein

    **votre rôle**: Votre rôle est d’effectuer un travail de thèse sur l’étude de la qualité d'expérience en lien avec la qualité du réseau domestique en Wi-Fi. **Contexte global et problématique du sujet** Avec le déploiement du FTTH (XGS-PON en France), Orange Livebox7 propose un débit jusqu’à 8 Gbps (descendants). Dans le réseau...


  • Lannion, Bretagne, France Orange Business Services Temps plein

    ContexteLes données tabulaires sont omniprésentes chez Orange, mais les avancées des réseaux de neurones sont inefficaces sur ces données en raison de leur hétérogénéité. Les variables catégorielles et continues, les distributions complexes, tronquées ou discrètes, les variables ordinales, les champs textuels et les dates rendent difficile la...


  • Lannion, Bretagne, France Orange Business Services Temps plein

    ContexteLes données tabulaires sont omniprésentes chez Orange, mais les avancées des réseaux de neurones sont moins efficaces que les outils d'apprentissage automatique classiques. Le masquage d'attention est une méthode prometteuse pour gérer les valeurs manquantes, mais il faut l'améliorer et l'évaluer par rapport à l'imputation...