Senior Site Reliability Engineer

il y a 3 jours

Paris, Île-de-France Collective Temps plein

Budget: selon profil

Description De La Mission
Senior Site Reliability Engineer
Secteur Énergie / Gaz
15/01/2026

Contexte Client
Notre client est une filiale d'un groupe international majeur du secteur de l'énergie, opérant à l'échelle mondiale et s'appuyant sur des plateformes digitales communes pour le développement et l'exploitation de ses produits numériques.

Les solutions IT de cette filiale sont utilisées par de nombreuses entités du groupe afin de concevoir, déployer et opérer des produits digitaux critiques, dans des environnements exigeants en termes de fiabilité, de performance, de sécurité et de disponibilité.

La filiale intervient comme un acteur central du Build, Scale & Run des plateformes digitales du groupe, en étroite collaboration avec les équipes produits et projets réparties à l'international. Elle est colocalisée avec une Digital Factory regroupant des équipes pluridisciplinaires (produit, IT, data, plateforme) travaillant sur des enjeux de transformation digitale à grande échelle.

Au sein de cette organisation, l'équipe Site Reliability Engineering (SRE) est responsable de la fiabilité, de la résilience et de l'observabilité des plateformes de Platform Engineering, et accompagne les équipes applicatives dans l'amélioration continue de la fiabilité de leurs solutions.

Contexte de mission
Dans ce contexte, notre client souhaite renforcer son équipe Site Reliability Engineering (SRE) par le recours à un Senior Site Reliability Engineer.

La mission s'inscrit dans un environnement cloud hybride (AWS et Azure), au cœur de plateformes digitales critiques utilisées par de nombreuses entités du groupe à l'international.

Le consultant interviendra en tant que Senior SRE, avec comme mission principale de définir, implémenter et améliorer les mécanismes d'observabilité, de résilience et de gestion des incidents des applications et plateformes.

Il Travaillera En Interaction Étroite Avec

les équipes de Platform Engineering,
les équipes applicatives,
les équipes projets et produits,
et plus largement l'ensemble des acteurs de la filière IT du groupe.

La mission combine des enjeux techniques forts, une dimension transverse marquée et un rôle clé de diffusion des bonnes pratiques SRE à l'échelle du groupe.

Objectif de la Mission
L'objectif principal de la mission est de renforcer la fiabilité, la résilience et l'observabilité des plateformes digitales du client, tout en contribuant à l'amélioration continue des pratiques SRE au sein des équipes.

Les Objectifs De La Mission Sont Notamment De

Définir et mettre en œuvre des mécanismes d'observabilité couvrant l'ensemble de la chaîne applicative
Améliorer la résilience des plateformes et applications critiques
Réduire le MTTR par une meilleure détection, analyse et gestion des incidents
Mettre en place et tester des dispositifs de Disaster Recovery
Contribuer à la diffusion des bonnes pratiques SRE auprès des équipes projets et produits
Explorer et implémenter des solutions AIOps pour améliorer la fiabilité et la gestion des incidents

Périmètre de la Mission – Responsabilités du Consultant – Résultats Attendus
Le consultant interviendra en tant que Senior Site Reliability Engineer, avec une responsabilité opérationnelle et transverse sur la fiabilité, la résilience et l'observabilité des plateformes digitales du client, dans un environnement multi-cloud (AWS & Azure) et multi-équipes.

En tant que SRE expérimenté, il sera attendu du consultant qu'il apporte bien plus qu'une simple expertise technique. Il devra être en capacité de prendre du recul sur les architectures existantes, d'identifier les axes d'amélioration prioritaires et de contribuer activement à la montée en maturité SRE des équipes et des plateformes.

La mission s'inscrit dans une logique d'amélioration continue, où le consultant jouera un rôle de référent fiabilité, en interface étroite avec les équipes de Platform Engineering, les équipes applicatives et les équipes projets. Il contribuera à structurer des pratiques pérennes, mesurables et partagées à l'échelle de l'organisation.

Responsabilités du Consultant

En tant que Senior Site Reliability Engineer expérimenté, le consultant interviendra comme référent fiabilité sur les plateformes digitales du client. Il sera attendu de lui qu'il apporte une expertise technique approfondie, mais également une capacité de structuration, de priorisation et de prise de recul, afin de contribuer durablement à la montée en maturité SRE des équipes et des plateformes.

Ses responsabilités s'articulent autour des piliers suivants :

Observabilité & Monitoring

En tant que SRE expérimenté, le consultant sera responsable de la définition, de la mise en œuvre et de l'évolution des mécanismes d'observabilité, permettant une visibilité complète, exploitable et partagée sur l'état de fonctionnement des applications et des plateformes.

Il Devra Notamment

Concevoir des stratégies de monitoring et d'alerting couvrant l'ensemble de la chaîne applicative (performance, disponibilité, qualité des données, dépendances techniques).
Mettre en place des dashboards clairs et actionnables, facilitant l'analyse des incidents et la prise de décision.
S'assurer de la pertinence des alertes afin de limiter le bruit et de favoriser une détection rapide des dysfonctionnements.
Résilience & Continuité de Service

Le consultant aura la responsabilité de renforcer la résilience des plateformes, en s'appuyant sur les capacités natives des environnements cloud et sur des pratiques éprouvées de continuité de service.

À Ce Titre, Il Sera Attendu Qu'il

Conçoive, implémente et teste des mécanismes de sauvegarde et de restauration des données et des applications.
Participe à la définition, à l'implémentation et aux tests de plans de reprise d'activité (Disaster Recovery Plans).
Déploie et pilote des scénarios de tests de résilience (Chaos Engineering) afin d'identifier les points de fragilité et d'améliorer la robustesse des environnements de production.
Gestion des Incidents & AIOps

En tant que SRE senior, le consultant jouera un rôle clé dans l'optimisation de la gestion des incidents, avec un objectif clair de réduction des temps de détection et de rétablissement.

Il Interviendra Notamment Sur

L'amélioration des processus de détection, de notification, de suivi et d'analyse des incidents.
L'exploitation avancée des logs et des métriques pour faciliter les analyses post-incidents et le retour d'expérience.
L'introduction et l'expérimentation de solutions AIOps, visant à automatiser la détection des anomalies, à améliorer l'analyse des incidents et à proposer ou déclencher des actions correctives pertinentes.
Diffusion des Bonnes Pratiques SRE

Au-delà de son rôle opérationnel, le consultant aura une responsabilité forte de transmission et d'accompagnement.

Il Sera Attendu Qu'il

Accompagne les équipes de Platform Engineering, les équipes applicatives et les équipes projets dans l'adoption des bonnes pratiques SRE.
Joue un rôle de référent et de mentor, en contribuant à la montée en compétences des équipes.
Participe à la structuration de standards, guidelines et pratiques partagées à l'échelle de l'organisation.
Résultats Attendus

La mission devra se traduire par des résultats concrets, observables et mesurables, tant sur le plan technique que sur l'organisation et les pratiques.

Les Résultats Attendus Incluent Notamment

Une amélioration significative de la fiabilité et de la disponibilité des plateformes et applications critiques.
Une réduction mesurable des temps de détection et de résolution des incidents.
Une meilleure maîtrise des risques opérationnels, grâce à des mécanismes de résilience éprouvés et testés.
Une montée en maturité SRE des équipes, portée par des pratiques plus structurées et partagées.

Les Livrables Attendus Pourront Inclure, Sans Être Exhaustifs

Des dashboards d'observabilité (monitoring, alerting, logging) clairs, partagés et maintenables.
Des documents de référence SRE (standards, bonnes pratiques, guidelines).
Des scénarios de tests de résilience documentés et les retours d'expérience associés.
Des plans de reprise d'activité (DRP) définis, testés et améliorés.
Des recommandations structurées en matière d'automatisation et d'AIOps.

La performance de la mission sera suivie à l'aide d'indicateurs SRE standards, tels que :

le MTTR (Mean Time To Recovery),
le MTTD (Mean Time To Detect),
le taux de disponibilité et le respect des SLO / SLA,
le nombre et la sévérité des incidents en production,
la couverture effective du monitoring et de l'alerting,
le taux de succès des tests de reprise et de résilience.

L'ensemble de ces livrables constitue un corpus de référence SRE cohérent et structuré, couvrant les dimensions d'observabilité, de résilience, de gestion des incidents et de bonnes pratiques opérationnelles.

Ce corpus servira de socle commun pour le pilotage de la fiabilité des plateformes et applications, la capitalisation des retours d'expérience et l'amélioration continue des pratiques SRE au sein des équipes.

Il constituera également une référence opérationnelle durable, permettant d'inscrire les actions menées dans le temps, de mesurer objectivement les progrès réalisés à l'aide des indicateurs définis (MTTR, MTTD, SLO/SLA, disponibilité, incidents), et d'accompagner l'évolution future des plateformes, des outils et des pratiques de fiabilité.

Profil recherché
Nous recherchons un consultant expérimenté capable d'intervenir comme « référent fiabilité » sur des plateformes digitales critiques, dans un environnement cloud hybride AWS & Azure à forte exigence de disponibilité, de résilience et de performance.

Le consultant devra démontrer une expertise technique approfondie en SRE, combinée à une capacité de prise de recul, de structuration et de diffusion des bonnes pratiques. Il interviendra dans un contexte transverse, en interaction étroite avec les équipes de Platform Engineering, les équipes applicatives et les équipes projets, afin de contribuer durablement à la montée en maturité SRE de l'organisation.

Une expérience confirmée sur des environnements multi-cloud, multi-équipes et internationaux, ainsi qu'une forte capacité à travailler sur des plateformes en production critique, sont indispensables.

Le consultant idéal devrait répondre aux critères suivants :

Formation & Éducation
Formation Bac+5 minimum. Parcours académique de type : prépa + école d'ingénieur, université scientifique ou formation équivalente à l'international
Une spécialisation en systèmes distribués, cloud computing, ingénierie logicielle, infrastructure ou fiabilité des systèmes serait fortement appréciée
Expérience
7 à 10+ ans d'expérience professionnelle en environnements IT complexes, dont une expérience significative en tant que SRE, ingénieur fiabilité ou ingénieur production senior
Expérience confirmée sur des plateformes digitales critiques en environnement cloud (AWS et/ou Azure)
Expérience avérée sur des sujets d'observabilité, de résilience, de gestion des incidents et de continuité de service
Expérience dans des contextes complexes impliquant :
plusieurs équipes techniques et applicatives
des environnements internationaux
des plateformes à forte exigence de disponibilité et de sécurité
Compétences Techniques & Méthodologiques
Solide expertise en Site Reliability Engineering et pratiques associées :
SLI / SLO / SLA
gestion du MTTR / MTTD
gestion du toil et automatisation
Maîtrise des mécanismes d'observabilité : monitoring, alerting, logging, tracing
Très bonne connaissance des environnements AWS et Azure, notamment :
mécanismes natifs de monitoring et logging
services de sauvegarde et de restauration
principes de résilience et de haute disponibilité
Expérience dans la mise en place et le test de Disaster Recovery Plans (DRP)
Connaissance et pratique du Chaos Engineering
Bonne maîtrise des processus de gestion des incidents et des post-mortems
Sensibilité et intérêt pour les approches AIOps et l'automatisation intelligente
Compétences Systèmes & Outils
Systèmes : Linux (expert), environnements conteneurisés appréciés
Observabilité : Prometheus, Grafana, CloudWatch, Azure Monitor, Application Insights, Log Analytics, KQL, PromQL
Logging & tracing : outils cloud natifs et/ou solutions de marché
Automatisation & scripting : Python, Bash, PowerShell (selon contexte)
CI/CD et pipelines de déploiement : bonne compréhension des enjeux liés à la fiabilité et à la résilience
Qualités Personnelles
Forte capacité d'analyse et de prise de recul
Rigueur, sens des priorités et orientation résultats
Capacité à intervenir sereinement en contexte d'incidents critiques
Leadership technique et crédibilité auprès d'interlocuteurs experts
Capacité à structurer, formaliser et diffuser des bonnes pratiques
Aisance dans des environnements complexes, exigeants et en transformation
Langues
Français : courant à natif (C2 requis)
Anglais : courant professionnel (C1 minimum requis), capacité à travailler au quotidien, animer des échanges techniques et produire de la documentation en anglais
Certifications (Appréciées)

Aucune certification n'est strictement obligatoire. Cependant, les certifications suivantes seraient appréciées :

Certifications cloud AWS et/ou Azure (Associate / Professional)
Certifications liées à la fiabilité, au cloud ou à l'exploitation (ex : SRE, DevOps, Cloud Architecture)
Certifications en observabilité, sécurité ou automatisation

Modalités de la Mission

Démarrage : Dès que possible - idéalement le 9 février 2026
Durée : Non précisée (mission long terme présumée)
Localisation : Paris centre
Télétravail : jusqu'à 2 jours par semaine autorisé
Contraintes : Aucune contrainte de déplacement prévue dans le cadre de cette mission
TJM : Selon profil

Senior Site Reliability Engineer

il y a 6 jours

Paris, Île-de-France Swile Temps plein

At Swile, we believe that good products can help reduce friction in daily professional life and boost employee satisfaction. Today, we provide innovative solutions in various areas such as Fintech, Travel, HR, and Employee Benefits to more than 5.5 million users in 85,000 companies in France and Brazil. Your role as a Senior Site Reliability Engineer (SRE)...
Senior Site Reliability Engineer

il y a 4 jours

Paris, Île-de-France Jobgether Temps plein

This position is posted by Jobgether on behalf of a partner company. We are currently looking for a Senior Site Reliability Engineer in France. We are looking for an experienced Senior Site Reliability Engineer to help scale and secure a high-traffic, rapidly growing platform. In this role, you will be responsible for ensuring system reliability,...
Senior Site Reliability Engineer

il y a 3 jours

Paris, Île-de-France Jobgether Temps plein

This position is posted by Jobgether on behalf of a partner company. We are currently looking for a Senior Site Reliability Engineer in France. We are seeking a highly skilled Senior Site Reliability Engineer to help design, operate, and scale data infrastructure and distributed systems. In this role, you will manage critical systems supporting large-scale...
Senior Site Reliability Engineer

il y a 3 semaines

Paris, Île-de-France Criteo Temps plein

What You'll Do:The concept of Product Reliability Engineering (PRE) draws inspiration from the principles of SRE. At Criteo, PRE acts as the bridge between Product, Platform Engineering and Infrastructure. The PRE group comprises eight global engineering teams with a common objective: to build the most reliable platform in AdTech.How You'll Make An ImpactAs...
Site Reliability Engineer

il y a 3 semaines

Paris, Île-de-France OVHcloud Temps plein

Site Reliability Engineer - AI Core H/F/N H/F/NAu sein de votre équipe #OneTeamVous rejoindrez l'équipe pluri-disciplinaire AI Core responsable du développement des produits d'intelligence artificielle d'OVHcloud et de leur continuité de service..Dans le cadre des produits IA, vous maintiendrez et accompagnerez les évolutions de infrastructure pour...
Site Reliability Engineer

il y a 3 semaines

Paris, Île-de-France Criteo Temps plein

What You'll Do:The Platform Core group at Criteo is composed of seven agile, human-sized teams providing the foundational platform and systems powering all Criteo products.Within this group, the Analytics Infrastructure team builds and operates the distributed, multi-datacenter analytic data stores and platforms enabling interactive querying, exploration,...
Site Reliability Engineer

il y a 3 jours

Paris, Île-de-France Mistral Ai Temps plein

About Mistral At Mistral AI, we believe in the power of AI to simplify tasks, save time, and enhance learning and creativity. Our technology is designed to integrate seamlessly into daily working life. We democratize AI through high-performance, optimized, open-source and cutting-edge models, products and solutions. Our comprehensive AI platform is designed...
Site Reliability Engineer

il y a 3 jours

Paris, Île-de-France Blackfluo Temps plein

Job DescriptionLocation: Full remote, EU timezone (CET +/- 2 hours)Start Date: As soon as possibleLanguages: English requiredWe are looking for a skilled Site Reliability Engineer (SRE) with deep expertise in AWS to help us scale and secure our infrastructure. As an SRE, you will be instrumental in ensuring the reliability, performance, and scalability of...
Senior Site Reliability Engineer

il y a 3 jours

Paris, Île-de-France Criteo Temps plein

What You'll Do:What's the Platform Factory group ?The Platform Factory group, composed of six agile and human-sized teams, provides an intuitive, integrated, performant and automated Software Factory that would flawlessly and continuously deploy to production any code change that would comply with the quality expectations. In other words, build, test and...
Site Reliability Engineer

il y a 3 semaines

Paris, Île-de-France Criteo Temps plein

What You'll Do:About the TeamThe Platform Core group at Criteo is composed of seven agile, human-sized teams providing the foundational platform and systems powering all Criteo products.Within this group, the Analytics Infrastructure team builds and operates the distributed, multi-datacenter analytic data stores and platforms enabling interactive querying,...

Amériques

Europe

Asie / Océanie

Afrique

Senior Site Reliability Engineer