Senior Data Engineer – Optimisation et stabilisation d'une pipeline PySpark

il y a 4 jours


Paris, Île-de-France Collective Temps plein
Contexte de la mission

L'équipe Supply Zone Forecast développe et maintient les modèles de prévision de la demande et des ventes pour l'ensemble des produits Décathlon, par centre d'approvisionnement continental. Aujourd'hui, notre pipeline est en production sur l'Europe, la Chine et l'Inde, et notre ambition pour 2026 est d'étendre la couverture à LATAM et MEA.

Dans ce cadre, nous recherchons un Data Engineer Senior expérimenté sur PySpark et l'optimisation de pipelines.

Notre Stack Data : AWS (S3, ECR, EKS); Databricks; Airflow; Pyspark; Python Et Github.

La mission portera principalement sur la reprise, l'optimisation et la refonte partielle du module de "refining", hérité d'une autre équipe. Ce module présente aujourd'hui plusieurs limites : lenteur d'exécution (compute), manque de gouvernance, faible modularité, documentation incomplète et difficulté à évoluer ou à scaler à l'échelle mondiale. Le contexte inclut également plusieurs dettes techniques autour de la stabilité, de la qualité du code et du renforcement des tests (unitaires et fonctionnels)

La mission se déroulera sur site à Paris dans le 17eme.

Objectifs et livrables

Le consultant aura pour principales responsabilités :

Refonte et optimisation du module "Refining" : Auditer le code existant, identifier les goulots de performance et axes d'amélioration. Revoir la structure du code pour renforcer la modularité, la lisibilité et la maintenabilité. Mettre en place une documentation claire et partagée (technique + fonctionnelle). Optimiser le traitement PySpark (logique de partitionnement, cache, broadcast, etc.). Proposer une approche flexible pour l'ajout de nouvelles features.

Renforcement de la robustesse et de la qualité : Implémenter ou renforcer les tests unitaires et fonctionnels. Améliorer la stabilité globale de la pipeline ML de forecast. Participer à la mise en place de bonnes pratiques d'ingénierie logicielle (CI/CD, gouvernance du code, monitoring).

Collaboration et transfert de compétences : Travailler étroitement avec les Data Scientists et lMachine Learning Engineers de l'équipe SZF. Assurer un transfert de connaissances clair et structuré à l'équipe interne. Contribuer à la montée en compétence collective sur PySpark et la scalabilité de pipelines ML.

Livrables attendus :

Module "refining" refactoré, documenté et testé

Rapports d'audit et plan d'optimisation validés

Documentation technique centralisée

Pipeline stable et industrialisable à l'échelle mondiale

Compétences demandées
Compétences

Niveau de compétence

DATABRICKS Confirmé

GITHUB Expert

AWS Expert

AWS S3 Expert

Apache Airflow Expert

Programmation Python Expert

AWS EC2 Expert

PYSPARK Expert

GitHub Actions Expert



  • Paris, Île-de-France Free-Work Temps plein

    Profil : Senior Data EngineerContexte de la mission : L'équipe Supply Zone Forecast (SZF) développe et maintient les modèles de prévision de la demande et des ventes pour l'ensemble des produits Décathlon, par centre d'approvisionnement continental.Aujourd'hui, notre pipeline est en production sur l'Europe, la Chine et l'Inde, et notreambition pour 2026...

  • Senior Data Engineer PySpark

    il y a 2 semaines


    Paris, Île-de-France AMD BLUE Temps plein

    Qui sommes-nous ?Chez AMD Blue, l'innovation est notre passion, et nous sommes fiers de présenter Blue Data. Avec une présence établie sur l'ensemble du territoire français et une récente expansion aux États-Unis, nous sommes résolument tournés vers l'avenir.Dans le cadre d?un besoin client, nous avons l'opportunité d'accueillir un nouveau membre au...


  • Paris, Île-de-France Craftman data Temps plein

    Nous recherchons une prestation de Data Engineer avec des compétences sur Python/PySpark/Databricks sur un environnement cloud AWS.Le Data Engineer sera responsable de la conception, du développement et de la mise en production de l'architecture de données.Il devra notamment :Collecter les exigences des métiers et des utilisateursConcevoir l'architecture...

  • Data Engineer

    il y a 2 semaines


    Paris, Île-de-France MP DATA Temps plein

    En tant que Data Engineer Senior, vous jouerez un rôle clé dans la construction, l'optimisation et la fiabilisation de nos pipelines de données à grande échelle, au cœur de notre plateforme analytique. Votre expertise sur Databricks et l'environnement Spark sera essentielle pour garantir des traitements performants, sécurisés et scalables.Vos...


  • Paris, Île-de-France COMET Temps plein

    ? Mission Freelance ? Data Engineer ?? Pas de sous-traitanceJe recherche un·e Data Engineer (Python / PySpark / Databricks / AWS) pour une mission stratégique au sein d?un grand groupe international dans l?énergie ?? Paris ? 3 jours sur site / 2 jours remote? Démarrage : 08/12/2025? TJM selon profilProcess : Codingame puis live coding? Ce qui t?attend :?...


  • Paris, Île-de-France Free-Work Temps plein

    Mission Freelance – Data Engineer Pas de sous-traitanceJe recherche un·e Data Engineer (Python / PySpark / Databricks / AWS) pour une mission stratégique au sein d'un grand groupe international dans l'énergie Paris – 3 jours sur site / 2 jours remote Démarrage : 08/12/2025 TJM selon profilProcess : Codingame puis live coding Ce qui t'attend :...

  • Senior Data engineer

    il y a 5 jours


    Paris, Île-de-France Codezys Temps plein

    Métier : Data ManagementFonction : Software engineerType de facturation : Assistance Technique (facturation avec un taux journalier)Technologies et outils : AWSSparkSnowflakeAirflowSecteurs d'activités : Services Informatiques, Conseil en organisation et stratégieDescription et livrables de la prestation :Rattaché au Responsable Data Platform, missions...

  • Data engineer Python

    il y a 19 heures


    Paris, Île-de-France lehibou Temps plein

    Notre client dans le secteur Énergie recherche un 2 x Data Engineer Python/PySpark/Microsoft Fabric/ Azure F/HDescriptif de la mission:Objectifs et livrablesNous recherchons 2 prestations de Data Engineer avec des compétences sur Python/PySpark/Microsoft Fabric sous un environnement Azure Cloud.Le prestataire Data Engineer sera responsable de la...

  • Senior Data engineer AWS

    il y a 3 jours


    Paris, Île-de-France Kéoni Consulting Temps plein

    CONTEXTE : Experience : 7 ans et plus Métiers Fonctions : Data Management, Software engineer Spécialités technologiques : Data Compétences Technologies et Outils AWS Spark Airflow Snowflake Secteurs d'activités Services Informatiques Conseil en organisation, stratégie MISSIONS Rattaché(e) au périmètre du Responsable Data Platform, vos...

  • Data Engineer Python Azure

    il y a 2 semaines


    Paris, Île-de-France ec-0b91-4fd1-a05e-dc94127b83a9 Temps plein

    DATA ENGINEER Avec des compétences sur Python/Pyspark/Databricks sous un environnement Azure Cloud.Objectifs et livrables :Nous recherchons une prestation de Data Engineering avec des compétences sur Python/Pyspark/Databricks sous un environnement Azure Cloud.Le consultant Data Engineer évoluera dans un contexte agile, en mode itératif et co-...