Senior Site Reliability Engineer

il y a 22 heures


Paris, Île-de-France Collective Temps plein

Budget: selon profil

Description De La Mission
Senior Site Reliability Engineer
Secteur Énergie / Gaz
15/01/2026

Contexte Client
Notre client est une filiale d'un groupe international majeur du secteur de l'énergie, opérant à l'échelle mondiale et s'appuyant sur des plateformes digitales communes pour le développement et l'exploitation de ses produits numériques.

Les solutions IT de cette filiale sont utilisées par de nombreuses entités du groupe afin de concevoir, déployer et opérer des produits digitaux critiques, dans des environnements exigeants en termes de fiabilité, de performance, de sécurité et de disponibilité.

La filiale intervient comme un acteur central du Build, Scale & Run des plateformes digitales du groupe, en étroite collaboration avec les équipes produits et projets réparties à l'international. Elle est colocalisée avec une Digital Factory regroupant des équipes pluridisciplinaires (produit, IT, data, plateforme) travaillant sur des enjeux de transformation digitale à grande échelle.

Au sein de cette organisation, l'équipe Site Reliability Engineering (SRE) est responsable de la fiabilité, de la résilience et de l'observabilité des plateformes de Platform Engineering, et accompagne les équipes applicatives dans l'amélioration continue de la fiabilité de leurs solutions.

Contexte de mission
Dans ce contexte, notre client souhaite renforcer son équipe Site Reliability Engineering (SRE) par le recours à un Senior Site Reliability Engineer.

La mission s'inscrit dans un environnement cloud hybride (AWS et Azure), au cœur de plateformes digitales critiques utilisées par de nombreuses entités du groupe à l'international.

Le consultant interviendra en tant que Senior SRE, avec comme mission principale de définir, implémenter et améliorer les mécanismes d'observabilité, de résilience et de gestion des incidents des applications et plateformes.

Il Travaillera En Interaction Étroite Avec

  • les équipes de Platform Engineering,
  • les équipes applicatives,
  • les équipes projets et produits,
  • et plus largement l'ensemble des acteurs de la filière IT du groupe.

La mission combine des enjeux techniques forts, une dimension transverse marquée et un rôle clé de diffusion des bonnes pratiques SRE à l'échelle du groupe.

Objectif de la Mission
L'objectif principal de la mission est de renforcer la fiabilité, la résilience et l'observabilité des plateformes digitales du client, tout en contribuant à l'amélioration continue des pratiques SRE au sein des équipes.

Les Objectifs De La Mission Sont Notamment De

  • Définir et mettre en œuvre des mécanismes d'observabilité couvrant l'ensemble de la chaîne applicative
  • Améliorer la résilience des plateformes et applications critiques
  • Réduire le MTTR par une meilleure détection, analyse et gestion des incidents
  • Mettre en place et tester des dispositifs de Disaster Recovery
  • Contribuer à la diffusion des bonnes pratiques SRE auprès des équipes projets et produits
  • Explorer et implémenter des solutions AIOps pour améliorer la fiabilité et la gestion des incidents

Périmètre de la Mission – Responsabilités du Consultant – Résultats Attendus
Le consultant interviendra en tant que Senior Site Reliability Engineer, avec une responsabilité opérationnelle et transverse sur la fiabilité, la résilience et l'observabilité des plateformes digitales du client, dans un environnement multi-cloud (AWS & Azure) et multi-équipes.

En tant que SRE expérimenté, il sera attendu du consultant qu'il apporte bien plus qu'une simple expertise technique. Il devra être en capacité de prendre du recul sur les architectures existantes, d'identifier les axes d'amélioration prioritaires et de contribuer activement à la montée en maturité SRE des équipes et des plateformes.

La mission s'inscrit dans une logique d'amélioration continue, où le consultant jouera un rôle de référent fiabilité, en interface étroite avec les équipes de Platform Engineering, les équipes applicatives et les équipes projets. Il contribuera à structurer des pratiques pérennes, mesurables et partagées à l'échelle de l'organisation.

  • Responsabilités du Consultant

En tant que Senior Site Reliability Engineer expérimenté, le consultant interviendra comme référent fiabilité sur les plateformes digitales du client. Il sera attendu de lui qu'il apporte une expertise technique approfondie, mais également une capacité de structuration, de priorisation et de prise de recul, afin de contribuer durablement à la montée en maturité SRE des équipes et des plateformes.

Ses responsabilités s'articulent autour des piliers suivants :

  • Observabilité & Monitoring

En tant que SRE expérimenté, le consultant sera responsable de la définition, de la mise en œuvre et de l'évolution des mécanismes d'observabilité, permettant une visibilité complète, exploitable et partagée sur l'état de fonctionnement des applications et des plateformes.

Il Devra Notamment

  • Concevoir des stratégies de monitoring et d'alerting couvrant l'ensemble de la chaîne applicative (performance, disponibilité, qualité des données, dépendances techniques).
  • Mettre en place des dashboards clairs et actionnables, facilitant l'analyse des incidents et la prise de décision.
  • S'assurer de la pertinence des alertes afin de limiter le bruit et de favoriser une détection rapide des dysfonctionnements.
  • Résilience & Continuité de Service

Le consultant aura la responsabilité de renforcer la résilience des plateformes, en s'appuyant sur les capacités natives des environnements cloud et sur des pratiques éprouvées de continuité de service.

À Ce Titre, Il Sera Attendu Qu'il

  • Conçoive, implémente et teste des mécanismes de sauvegarde et de restauration des données et des applications.
  • Participe à la définition, à l'implémentation et aux tests de plans de reprise d'activité (Disaster Recovery Plans).
  • Déploie et pilote des scénarios de tests de résilience (Chaos Engineering) afin d'identifier les points de fragilité et d'améliorer la robustesse des environnements de production.
  • Gestion des Incidents & AIOps

En tant que SRE senior, le consultant jouera un rôle clé dans l'optimisation de la gestion des incidents, avec un objectif clair de réduction des temps de détection et de rétablissement.

Il Interviendra Notamment Sur

  • L'amélioration des processus de détection, de notification, de suivi et d'analyse des incidents.
  • L'exploitation avancée des logs et des métriques pour faciliter les analyses post-incidents et le retour d'expérience.
  • L'introduction et l'expérimentation de solutions AIOps, visant à automatiser la détection des anomalies, à améliorer l'analyse des incidents et à proposer ou déclencher des actions correctives pertinentes.
  • Diffusion des Bonnes Pratiques SRE

Au-delà de son rôle opérationnel, le consultant aura une responsabilité forte de transmission et d'accompagnement.

Il Sera Attendu Qu'il

  • Accompagne les équipes de Platform Engineering, les équipes applicatives et les équipes projets dans l'adoption des bonnes pratiques SRE.
  • Joue un rôle de référent et de mentor, en contribuant à la montée en compétences des équipes.
  • Participe à la structuration de standards, guidelines et pratiques partagées à l'échelle de l'organisation.
  • Résultats Attendus

La mission devra se traduire par des résultats concrets, observables et mesurables, tant sur le plan technique que sur l'organisation et les pratiques.

Les Résultats Attendus Incluent Notamment

  • Une amélioration significative de la fiabilité et de la disponibilité des plateformes et applications critiques.
  • Une réduction mesurable des temps de détection et de résolution des incidents.
  • Une meilleure maîtrise des risques opérationnels, grâce à des mécanismes de résilience éprouvés et testés.
  • Une montée en maturité SRE des équipes, portée par des pratiques plus structurées et partagées.

Les Livrables Attendus Pourront Inclure, Sans Être Exhaustifs

  • Des dashboards d'observabilité (monitoring, alerting, logging) clairs, partagés et maintenables.
  • Des documents de référence SRE (standards, bonnes pratiques, guidelines).
  • Des scénarios de tests de résilience documentés et les retours d'expérience associés.
  • Des plans de reprise d'activité (DRP) définis, testés et améliorés.
  • Des recommandations structurées en matière d'automatisation et d'AIOps.

La performance de la mission sera suivie à l'aide d'indicateurs SRE standards, tels que :

  • le MTTR (Mean Time To Recovery),
  • le MTTD (Mean Time To Detect),
  • le taux de disponibilité et le respect des SLO / SLA,
  • le nombre et la sévérité des incidents en production,
  • la couverture effective du monitoring et de l'alerting,
  • le taux de succès des tests de reprise et de résilience.

L'ensemble de ces livrables constitue un corpus de référence SRE cohérent et structuré, couvrant les dimensions d'observabilité, de résilience, de gestion des incidents et de bonnes pratiques opérationnelles.

Ce corpus servira de socle commun pour le pilotage de la fiabilité des plateformes et applications, la capitalisation des retours d'expérience et l'amélioration continue des pratiques SRE au sein des équipes.

Il constituera également une référence opérationnelle durable, permettant d'inscrire les actions menées dans le temps, de mesurer objectivement les progrès réalisés à l'aide des indicateurs définis (MTTR, MTTD, SLO/SLA, disponibilité, incidents), et d'accompagner l'évolution future des plateformes, des outils et des pratiques de fiabilité.

Profil recherché
Nous recherchons un consultant expérimenté capable d'intervenir comme « référent fiabilité » sur des plateformes digitales critiques, dans un environnement cloud hybride AWS & Azure à forte exigence de disponibilité, de résilience et de performance.

Le consultant devra démontrer une expertise technique approfondie en SRE, combinée à une capacité de prise de recul, de structuration et de diffusion des bonnes pratiques. Il interviendra dans un contexte transverse, en interaction étroite avec les équipes de Platform Engineering, les équipes applicatives et les équipes projets, afin de contribuer durablement à la montée en maturité SRE de l'organisation.

Une expérience confirmée sur des environnements multi-cloud, multi-équipes et internationaux, ainsi qu'une forte capacité à travailler sur des plateformes en production critique, sont indispensables.

Le consultant idéal devrait répondre aux critères suivants :

  • Formation & Éducation
  • Formation Bac+5 minimum. Parcours académique de type : prépa + école d'ingénieur, université scientifique ou formation équivalente à l'international
  • Une spécialisation en systèmes distribués, cloud computing, ingénierie logicielle, infrastructure ou fiabilité des systèmes serait fortement appréciée
  • Expérience
  • 7 à 10+ ans d'expérience professionnelle en environnements IT complexes, dont une expérience significative en tant que SRE, ingénieur fiabilité ou ingénieur production senior
  • Expérience confirmée sur des plateformes digitales critiques en environnement cloud (AWS et/ou Azure)
  • Expérience avérée sur des sujets d'observabilité, de résilience, de gestion des incidents et de continuité de service
  • Expérience dans des contextes complexes impliquant :

  • plusieurs équipes techniques et applicatives

  • des environnements internationaux
  • des plateformes à forte exigence de disponibilité et de sécurité

  • Compétences Techniques & Méthodologiques

  • Solide expertise en Site Reliability Engineering et pratiques associées :

  • SLI / SLO / SLA

  • gestion du MTTR / MTTD
  • gestion du toil et automatisation

  • Maîtrise des mécanismes d'observabilité : monitoring, alerting, logging, tracing

  • Très bonne connaissance des environnements AWS et Azure, notamment :

  • mécanismes natifs de monitoring et logging

  • services de sauvegarde et de restauration
  • principes de résilience et de haute disponibilité

  • Expérience dans la mise en place et le test de Disaster Recovery Plans (DRP)

  • Connaissance et pratique du Chaos Engineering
  • Bonne maîtrise des processus de gestion des incidents et des post-mortems
  • Sensibilité et intérêt pour les approches AIOps et l'automatisation intelligente
  • Compétences Systèmes & Outils
  • Systèmes : Linux (expert), environnements conteneurisés appréciés
  • Observabilité : Prometheus, Grafana, CloudWatch, Azure Monitor, Application Insights, Log Analytics, KQL, PromQL
  • Logging & tracing : outils cloud natifs et/ou solutions de marché
  • Automatisation & scripting : Python, Bash, PowerShell (selon contexte)
  • CI/CD et pipelines de déploiement : bonne compréhension des enjeux liés à la fiabilité et à la résilience
  • Qualités Personnelles
  • Forte capacité d'analyse et de prise de recul
  • Rigueur, sens des priorités et orientation résultats
  • Capacité à intervenir sereinement en contexte d'incidents critiques
  • Leadership technique et crédibilité auprès d'interlocuteurs experts
  • Capacité à structurer, formaliser et diffuser des bonnes pratiques
  • Aisance dans des environnements complexes, exigeants et en transformation
  • Langues
  • Français : courant à natif (C2 requis)
  • Anglais : courant professionnel (C1 minimum requis), capacité à travailler au quotidien, animer des échanges techniques et produire de la documentation en anglais
  • Certifications (Appréciées)

Aucune certification n'est strictement obligatoire. Cependant, les certifications suivantes seraient appréciées :

  • Certifications cloud AWS et/ou Azure (Associate / Professional)
  • Certifications liées à la fiabilité, au cloud ou à l'exploitation (ex : SRE, DevOps, Cloud Architecture)
  • Certifications en observabilité, sécurité ou automatisation

Modalités de la Mission

  • Démarrage : Dès que possible - idéalement le 9 février 2026
  • Durée : Non précisée (mission long terme présumée)
  • Localisation : Paris centre
  • Télétravail : jusqu'à 2 jours par semaine autorisé
  • Contraintes : Aucune contrainte de déplacement prévue dans le cadre de cette mission
  • TJM : Selon profil


  • Paris, Île-de-France Swile Temps plein

    At Swile, we believe that good products can help reduce friction in daily professional life and boost employee satisfaction. Today, we provide innovative solutions in various areas such as Fintech, Travel, HR, and Employee Benefits to more than 5.5 million users in 85,000 companies in France and Brazil. Your role as a Senior Site Reliability Engineer (SRE)...


  • Paris, Île-de-France Criteo Temps plein

    What You'll Do:The concept of Product Reliability Engineering (PRE) draws inspiration from the principles of SRE. At Criteo, PRE acts as the bridge between Product, Platform Engineering and Infrastructure. The PRE group comprises eight global engineering teams with a common objective: to build the most reliable platform in AdTech.How You'll Make An ImpactAs...

  • Site Reliability Engineer

    il y a 1 semaine


    Paris, Île-de-France OVHcloud Temps plein

    Site Reliability Engineer - AI Core H/F/N H/F/NAu sein de votre équipe #OneTeamVous rejoindrez l'équipe pluri-disciplinaire AI Core responsable du développement des produits d'intelligence artificielle d'OVHcloud et de leur continuité de service..Dans le cadre des produits IA, vous maintiendrez et accompagnerez les évolutions de infrastructure pour...

  • Site Reliability Engineer

    il y a 1 semaine


    Paris, Île-de-France Blackfluo Temps plein

    Job DescriptionLocation: Full remote, EU timezone (CET +/- 2 hours)Start Date: As soon as possibleLanguages: English requiredWe are looking for a skilled Site Reliability Engineer (SRE) with deep expertise in AWS to help us scale and secure our infrastructure. As an SRE, you will be instrumental in ensuring the reliability, performance, and scalability of...

  • Site Reliability Engineer

    il y a 1 semaine


    Paris, Île-de-France Mistral Ai Temps plein

    About Mistral At Mistral AI, we believe in the power of AI to simplify tasks, save time, and enhance learning and creativity. Our technology is designed to integrate seamlessly into daily working life. We democratize AI through high-performance, optimized, open-source and cutting-edge models, products and solutions. Our comprehensive AI platform is designed...

  • Site Reliability Engineer

    il y a 1 semaine


    Paris, Île-de-France OVHcloud Temps plein

    Site Reliability Engineer - Network Observability H/F/NAu sein de votre équipe #OneTeamVous rejoindrez l'équipe Network Observability, en charge de la conception des produits d'observability pour une infrastructure composée de plus de serveurs, 5 millions d'adresses IP publiques et équipements réseau ; le maintien en condition opérationnel et...


  • Paris, Île-de-France Doctolib Temps plein

    What you'll do Join a team of passionate and hardworking entrepreneurs to transform healthcare Working in the tech team at Doctolib involves building innovative services and features to improve the daily lives of care teams and patients. We work in feature teams in an agile environment, while collaborating with engineering, design, and business teams We...


  • Paris, Île-de-France Criteo Temps plein

    What You'll Do:What's the Platform Factory group ?The Platform Factory group, composed of six agile and human-sized teams, provides an intuitive, integrated, performant and automated Software Factory that would flawlessly and continuously deploy to production any code change that would comply with the quality expectations. In other words, build, test and...

  • Site Reliability Engineer

    il y a 24 heures


    Paris, Île-de-France Tyfali Consulting Temps plein

    Nous recherchons un(e) Site Reliability Engineer (SRE) Senior pour renforcer les équipes de notre client grand compte ; acteur majeur du Saas B2B, en charge d'une plateforme critique à forte volumétrie.Le client évolue dans un contexte de transformation technologique, avec des enjeux forts de fiabilité, performance, observabilité et scalabilité, sur...


  • Paris, Île-de-France BSPORT Temps plein

    We are bsport. The place to bebsport is an all-in-one platform combining boutique fitness and advanced technology. Our platform helps our partners manage their bookings, payroll, marketing and more, to streamline operations and boost their commercial success.Since we launched in 2019, we have already achieved the following:We've built a community of over 7...