Etude de représentation de données"Interval Valued Data" pour classifieurs à données ponctuelles F/H
il y a 1 mois
about the role
Contexte: Dans de nombreuses situations réelles, l'imprécision, l'incertitude ou la variabilité peuvent être présentes dans certaines données collectées. Dans ce cas les données utilisées ne sont pas des valeurs précises, ponctuelles (la température est de 10.23 degrés) mais des données à valeur d'intervalle (la température est entre 10 et 12 degrés). On parle de « Interval-Valued Data » (IVD). Par rapport aux données « ponctuelles », l’IVD peut exprimer l'incertitude et la variabilité des données. Apprendre un modèle de machine learning (on se limitera dans cette étude à la classification supervisée) qui se base sur ce type de données requiert parfois de transformer la valeur « intervalle » en une autre représentation [1].
Mission : Après l’étude menée dans [1], on cherchera à étendre ces travaux en (re)réalisant leur étude mais aussi en testant d’autres formes de représentation (tel que par exemple un simple « one hot encoding » [2] des intervalles de valeurs). Pour ce faire :
(i) un travail raisonnable de bibliographie sera à réaliser puis
(ii) un benchmark sera à réaliser versus (le travail de biblio définira les éléments de la liste ci-dessous)
(a) plusieurs classifieurs (dédiés aux données ponctuelles 1)
(b) plusieurs représentations
(c) potentiellement à plusieurs types d’IVD (à recouvrement ou sans recouvrement)
(d) et enfin sur plusieurs jeux de données, soit des jeux de données de la littérature de l’IVD, soit des jeux de données classiques sur lesquels on aurait calculé des intervalles de valeurs (ou de groupes de modalités) de manière supervisée au préalable (via un arbre, via Khiops, etc…).
Références bibliographiques :
[1] “An Interval-Valued Data Classification Method Based on the Unified Representation Frame”, 2020, IEEE Open Access, Xiaobo Qi, Husheng Guo, Zadorozhnyi Artem and Wenjian Wang
[2] “A benchmark of categorical encoders for binary classification”, 2023, NeurIPS Datasets and Benchmarks Track, Federico Matteucci, Vadim Arzamasov and Klemens Böhm
[3] “Multiclass Classification With Fuzzy-Feature Observations: Theory and Algorithms” in IEEE Transactions on Cybernetics Guangzhi Ma, Jie Lu, Feng Liu; Zhen Fang and Guangquan Zhang
(1) A priori l’étude ne s’intéressera pas aux modèles dédiés aux données IVD tel que : « Binary classification SVM-based algorithms with interval-valued training data using triangular and Epanechnikov kernels”, « Lev V. Utkin et al, Neural Networks, 2016.; ou encore “A pattern classifier for interval-valued data based on multinomial logistic regression model," 2012 IEEE International Conference on Systems, Man, and Cybernetics (SMC), A. P. de Barros, et al.
about you
Le profil souhaité est BAC + 5, Master Industriel (ou recherche) informatique et/ou statistiques ou école d'ingénieur.
Data scientist avec goût pour l’informatique et les mathématiques appliquées ; si possible ayant suivi des cours, TP, stage sur les séries temporelles
Les connaissances en Python, Scikit-learn … sont indispensables.
additional information
Proche de la mer vous serez au sein d’une équipe composée de chercheurs en Machine Learning, de Data Scientists et d’experts en machine learning dans une direction d’innovation.
department
Basée à Lannion (22), l'équipe PROF déploie son activité dans le domaine des statistiques, machine learning et intelligence artificielle, depuis des travaux fondamentaux jusqu'à l'accompagnement des unités opérationnelles d'Orange sur des cas d'usage précis.
L'équipe se compose d'une vingtaine de permanents et accueille actuellement quatre doctorants.
contract
Internship
Start date : 01 Apr 2025
Niveau d’études préparé pendant le stage Indemnité brute selon école Bac+5 de 1572 € à 2096 € / mois-
Intervalle de données
il y a 4 semaines
Lannion, Bretagne, France Orange Business Services Temps pleinContexteL'imprécision, l'incertitude ou la variabilité peuvent être présentes dans certaines données collectées. Dans ce cas, les données utilisées ne sont pas des valeurs précises, ponctuelles, mais des données à valeur d'intervalle. On parle de « Interval-Valued Data » (IVD).Apprendre un modèle de machine learning qui se base sur...
-
Lannion, Bretagne, France Orange Business Services Temps pleinÀ propos du rôleLe rôle consiste à développer des modèles de machine learning pour la classification d'intervalles de données. Ce projet vise à étendre les travaux existants en explorant de nouvelles formes de représentation des intervalles de valeurs.MissionLa mission consiste à réaliser une étude approfondie de la bibliographie existante, puis...
-
Intervalle de données
il y a 4 semaines
Lannion, Bretagne, France Orange Business Services Temps pleinContexteL'imprécision, l'incertitude ou la variabilité peuvent être présentes dans certaines données collectées. Dans ce cas, les données utilisées ne sont pas des valeurs précises, ponctuelles, mais des données à valeur d'intervalle. Apprendre un modèle de machine learning qui se base sur ce type de données requiert parfois de...
-
Intervalle de données
il y a 4 semaines
Lannion, Bretagne, France Orange Business Services Temps pleinContexteL'équipe de recherche d'Orange Business Services travaille sur la classification de données à valeur d'intervalle. Ce type de données est courant dans les situations où les mesures sont imprécises ou variables. Nous recherchons un développeur de modèles de classification pour travailler sur des algorithmes de classification...
-
Stage de recherche
il y a 4 semaines
Lannion, France Orange Business Services Temps pleinabout the role #python #scikit-learn #machinelearning Ce stage a pour objectif d'explorer l'intégration du concept drift dans le cadre de la classification de données temporelles multi-table, en utilisant des données relationnelles fournies par Orange. Ces données couvrent divers domaines, tels que l'expérience client, la satisfaction et la...
-
Stage recherche
il y a 4 semaines
Lannion, France Orange Business Services Temps pleinabout the role #watermarking #privacy #modèlegénératif Contexte : Que ce soit sous forme de tableaux de données marketing ou de logs réseau/machines, les données tabulaires sont omniprésentes chez Orange. Mais une grande part de ces données contient des informations privées (noms, adresses, numéros de téléphones etc.)....
-
Développeur de modèles de classification pour données temporelles
il y a 4 semaines
Lannion, Bretagne, France Orange Business Services Temps pleinObjectif du stageLe stage a pour objectif de développer des approches robustes et adaptatives pour détecter et s'ajuster aux changements dans les données multi-table, afin d'optimiser les performances des analyses prédictives et détecter les nouveaux comportements sur la durée.MissionsPlacer le concept drift dans la cadre de la classification sur...
-
Développeur de modèles de classification pour données temporelles
il y a 4 semaines
Lannion, Bretagne, France Orange Business Services Temps pleinObjectif du stageLe stage a pour objectif de développer des approches robustes et adaptatives pour détecter et s'ajuster aux changements dans les données multi-table, afin d'optimiser les performances des analyses prédictives et détecter les nouveaux comportements sur la durée.MissionsVous serez chargé de placer le concept drift dans la cadre de la...
-
Lannion, France Orange Business Services Temps pleinabout the role #Machinelearning #IA #apprentissageautomatique #PyTorch #scikit-learn #optuna Contexte : Que ce soit sous forme de tableaux de données marketing, de logs réseau ou de logs machines, les données tabulaires sont omniprésentes chez Orange. Les avancées des réseaux de neurones, en particulier des transformers, sont indéniables...
-
Assistant Comptable
Il y a 2 mois
Lannion, France TGS France Temps plein**Qui sommes-nous?** **TGS France : un groupe engagé et durable** Portés par les relations humaines, l’inclusion et l’engagement, nos 1700 collaborateurs ont à cœur de travailler ensemble pour apporter à nos clients une offre de service globale et durable au travers d’une pluralité de métiers : Audit, Avocats, Conseil, Expertise comptable,...
-
Spécialiste en Modélisation de Données pour l'Anonymat et la Traçabilité
il y a 2 semaines
Lannion, Bretagne, France Orange Business Services Temps pleinRôle Dans le cadre de l'équipe Machine Learning & PROFiling d'Orange Innovation, nous recherchons un spécialiste en modélisation de données pour contribuer à l'anonymat et à la traçabilité de données sensibles. Vos compétences en intelligence artificielle et en traitement de données vous aideront à concevoir des modèles de...
-
Stage recherche- Data Scientist/Linguist NLP F/H
il y a 4 semaines
Lannion, France Orange Business Services Temps pleinProfil Chez Orange Innovation, la direction Data AI vise à promouvoir l'utilisation des données et de l'Intelligence Artificielle, en collaborant étroitement avec les pays où Orange est présent, afin de répondre à leurs besoins métier. Dans cette dynamique, l’équipe DESKIN crée des produits et services basés sur des technologies d’IA,...
-
Assistant comptable spécialisé en gestion de données
il y a 4 semaines
Lannion, Bretagne, France Adsearch Temps pleinAdsearch propose des opportunités de carrières pour les profils d'experts, cadres et managers. Que ce soit pour un emploi ou pour une mission, Adsearch est le cabinet de recrutement qu'il vous faut. Retrouvez toutes nos offres d'emploi sur notre site internet. Missions clés : - Formation des clients : Accompagner dans l'utilisation des...
-
Lannion, Bretagne, France Orange Business Services Temps pleinContexteLes données tabulaires sont omniprésentes chez Orange, mais les avancées des réseaux de neurones sont moins efficaces que les outils d'apprentissage automatique classiques. L'objectif de ce stage est d'améliorer la méthode de masquage d'attention pour traiter les valeurs manquantes.Compétences requisesIngénieur ou master en...
-
Stage - NLP Data Scientist F/H
il y a 4 semaines
Lannion, France Orange Business Services Temps pleinabout the role *Sujet du stage : Conception d'une métrique automatique pour l'évaluation des textes générés. *Contexte : De nombreuses mesures automatiques ont été proposées pour évaluer les capacités génératives des modèles de langage [1, 4-6, entre autres]. Cependant, la plupart de ces études se concentrent principalement sur...
-
Analyse statistique des données tabulaires
il y a 7 jours
Lannion, Bretagne, France Orange Business Services Temps pleinA propos du posteCe stage a pour objectif d'améliorer une méthode de traitement des variables manquantes dans les données tabulaires en utilisant le masquage d'attention. Les données tabulaires sont omniprésentes dans divers domaines, notamment marketing et réseau. Malgré l'avancée des réseaux de neurones, ils sont inefficaces sur les...
-
Lannion, Bretagne, France Orange Business Services Temps pleinContexteLes données tabulaires sont omniprésentes chez Orange, mais les avancées des réseaux de neurones sont moins efficaces que les outils d'apprentissage automatique classiques. Le stage consiste à améliorer la méthode de masquage d'attention pour gérer les valeurs manquantes et à évaluer son efficacité par rapport à l'imputation...
-
Thèse etude de La Qualité D'expérience en Lien
Il y a 5 mois
Lannion, France Orange Temps plein**votre rôle**: Votre rôle est d’effectuer un travail de thèse sur l’étude de la qualité d'expérience en lien avec la qualité du réseau domestique en Wi-Fi. **Contexte global et problématique du sujet** Avec le déploiement du FTTH (XGS-PON en France), Orange Livebox7 propose un débit jusqu’à 8 Gbps (descendants). Dans le réseau...
-
Lannion, Bretagne, France Orange Business Services Temps pleinContexteLes données tabulaires sont omniprésentes chez Orange, mais les avancées des réseaux de neurones sont inefficaces sur ces données en raison de leur hétérogénéité. Les variables catégorielles et continues, les distributions complexes, tronquées ou discrètes, les variables ordinales, les champs textuels et les dates rendent difficile la...
-
Lannion, Bretagne, France Orange Business Services Temps pleinContexteLes données tabulaires sont omniprésentes chez Orange, mais les avancées des réseaux de neurones sont moins efficaces que les outils d'apprentissage automatique classiques. Le masquage d'attention est une méthode prometteuse pour gérer les valeurs manquantes, mais il faut l'améliorer et l'évaluer par rapport à l'imputation...