Site Reliability Engineer

il y a 2 jours


Paris, Île-de-France NEXTON Temps plein
de l'entreprise

Qui sommes-nous ?
Rejoindre NEXTON, c'est intégrer une entreprise où convergent l'esprit d'un cabinet de conseil, la créativité d'une agence et la dynamique d'une ESN Grâce à notre expertise, nous accompagnons des clients grands comptes et des pure players tels que SNCF, Orange, et BNP Paribas dans leurs stratégies d'évolution et d'innovation digitale.

Fondée en 2011, NEXTON réunit aujourd'hui une équipe de plus de 450 experts spécialisés dans le digital, le design, l'agilité, le produit et le développement. Ensemble, ils créent un écosystème riche en connaissances et en compétences diversifiées.

Description du poste

NEXTON
recrute un
Site Reliability Engineer / Observability Engineer H/F,
en
CDI,
à
Paris
Ton futur environnement de travail :
Tu interviens sur des environnements cloud complexes et multi-plateformes (AWS, Azure), avec des enjeux élevés de disponibilité, de performance et de continuité de service.

Ton rôle est central : détecter avant l'incident, comprendre pendant, restaurer vite après, et améliorer en continu.

Ici, tu construis des systèmes capables d'absorber les chocs.

Tes missions :
Observabilité & Monitoring

  • Tu définis et implémentes des mécanismes avancés de monitoring et d'alerting couvrant l'ensemble de la chaîne applicative : front-end, backend, ETL, qualité de données et connectivité.
  • Tu mets en œuvre des solutions d'observabilité sur AWS, Azure et Google Cloud en exploitant Prometheus, CloudWatch, Azure Monitor, Application Insights, Log Analytics et Google Cloud Observability.
  • Tu utilises Grafana et PromQL pour concevoir des dashboards exploitables et orientés incident.
  • Tu participes à l'implémentation d'OpenTelemetry pour standardiser la collecte des métriques, logs et traces.

Résilience & Continuité de Service

  • Tu contribues à la résilience des applications en implémentant et testant des mécanismes de sauvegarde et de restauration sur les bases de données, data lakes et stockages objets.
  • Tu maîtrises et exploites les mécanismes natifs de sauvegarde AWS et Azure pour garantir la protection des données.
  • Tu définis, mets en place et testes des Disaster Recovery Plans, incluant les pipelines de déploiement, les restaurations et les scénarios de reprise.

Chaos Engineering & Resiliency Testing

  • Tu conçois et implémentes des scénarios de Chaos Engineering sur les environnements de production, afin de tester la robustesse réelle des systèmes.
  • Tu mets en œuvre des stratégies de resiliency testing pour identifier les points de rupture et renforcer l'architecture.

Gestion des Incidents & AIOps

  • Tu travailles à l'optimisation de la gestion des incidents pour réduire le MTTR, en améliorant la détection, la notification et l'analyse des incidents.
  • Tu mets en place des solutions d'AIOps pour renforcer l'observabilité, automatiser l'analyse des dysfonctionnements et améliorer la résolution des pannes.
  • Tu implémentes et exploites des agents IA capables d'identifier des axes d'amélioration de la fiabilité et de contribuer à la résolution proactive des incidents.

Culture SRE & Collaboration

  • Tu participes activement à la promotion des bonnes pratiques SRE auprès des squads produit, des projets IT et des équipes data.
  • Tu contribues à l'amélioration continue de la fiabilité des produits en accompagnant les équipes sur les sujets d'architecture, d'exploitation et de résilience.

Qualifications
Compétences techniques

  • Tu possèdes un niveau confirmé sur AWS et tu sais exploiter ses services d'observabilité, de sécurité et de résilience.
  • Tu disposes d'une expertise avancée sur Azure, notamment sur Azure Monitor, KQL, Application Insights, Container Insights et Log Analytics.
  • Tu maîtrises la programmation en Python et tu l'utilises pour automatiser, analyser et fiabiliser les environnements.
  • Tu es à l'aise avec l'infrastructure as code et tu utilises Terraform et Ansible pour industrialiser les déploiements.
  • Tu as une expérience confirmée en resiliency testing et en Chaos Engineering.
  • Tu maîtrises OpenTelemetry à un niveau avancé pour la collecte et la corrélation des signaux d'observabilité.
  • Tu utilises Git comme outil central de collaboration et de gestion du code.
  • Tu maîtrises l'anglais à un niveau professionnel.

Informations complémentaires

Pourquoi choisir NEXTON ?
Nous te proposons des avantages et des opportunités pour enrichir ton expérience professionnelle et personnelle tout au long de l'année :

Des communautés dynamiques pour t'accompagner dans ton parcours.

Des Meet Up pour développer tes compétences.

Des formations pour te réinventer et progresser.

Des événements sportifs et festifs pour t'épanouir.

Un forfait mobilité durable pour faciliter ton quotidien et encourager la mobilité douce.

Un téléphone de dernière génération pour rester connecté.

Prêt à nous rejoindre ?
Rencontrons-nous
NEXTON



  • Paris, Île-de-France Swile Temps plein

    At Swile, we believe that good products can help reduce friction in daily professional life and boost employee satisfaction. Today, we provide innovative solutions in various areas such as Fintech, Travel, HR, and Employee Benefits to more than 5.5 million users in 85,000 companies in France and Brazil. Your role as a Senior Site Reliability Engineer (SRE)...

  • Site Reliability Engineer

    il y a 4 jours


    Paris, Île-de-France Criteo Temps plein

    What You'll Do:The Platform Core group at Criteo is composed of seven agile, human-sized teams providing the foundational platform and systems powering all Criteo products.Within this group, the Analytics Infrastructure team builds and operates the distributed, multi-datacenter analytic data stores and platforms enabling interactive querying, exploration,...

  • Site Reliability Engineer

    il y a 13 heures


    Paris, Île-de-France Criteo Temps plein

    What You'll Do:About the TeamThe Platform Core group at Criteo is composed of seven agile, human-sized teams providing the foundational platform and systems powering all Criteo products.Within this group, the Analytics Infrastructure team builds and operates the distributed, multi-datacenter analytic data stores and platforms enabling interactive querying,...

  • Site Reliability Engineer II

    il y a 2 semaines


    Paris, Île-de-France Doctolib Temps plein

    What we doDoctolib's Engineering environment is rich and we are building innovative products and features aiming each day to ease doctors' and patient life. We are looking for a Site Reliability Engineer II to keep Doctolib production systems running smoothly. You will also be a key-player to support the exponential growth of Doctolib services.What you will...


  • Paris, Île-de-France Doctolib Temps plein

    What We DoDoctolib's Engineering environment is rich and we are building innovative products and features aiming each day to ease doctors' and patient life. We are looking for aSite Reliability Engineer IIto keep Doctolib production systems running smoothly. You will also be a key-player to support the exponential growth of Doctolib services.What You Will...

  • Site Reliability Engineer

    il y a 2 jours


    Paris, Île-de-France Criteo Temps plein

    What You'll Do: About the TeamThe Platform Core group at Criteo is composed of seven agile, human-sized teams providing the foundational platform and systems powering all Criteo products.Within this group, the Analytics Infrastructure team builds and operates the distributed, multi-datacenter analytic data stores and platforms enabling interactive...


  • Paris, Île-de-France Criteo Temps plein

    What You'll Do:The concept of Product Reliability Engineering (PRE) draws inspiration from the principles of SRE. At Criteo, PRE acts as the bridge between Product, Platform Engineering and Infrastructure. The PRE group comprises eight global engineering teams with a common objective: to build the most reliable platform in AdTech.How You'll Make An ImpactAs...


  • Paris, Île-de-France Collective Temps plein

    Budget: selon profilDescription De La MissionSenior Site Reliability EngineerSecteur Énergie / Gaz15/01/2026Contexte ClientNotre client est une filiale d'un groupe international majeur du secteur de l'énergie, opérant à l'échelle mondiale et s'appuyant sur des plateformes digitales communes pour le développement et l'exploitation de ses produits...

  • Site Reliability Engineer

    il y a 1 semaine


    Paris, Île-de-France Tyfali Consulting Temps plein

    Nous recherchons un(e) Site Reliability Engineer (SRE) Senior pour renforcer les équipes de notre client grand compte ; acteur majeur du Saas B2B, en charge d'une plateforme critique à forte volumétrie.Le client évolue dans un contexte de transformation technologique, avec des enjeux forts de fiabilité, performance, observabilité et scalabilité, sur...

  • Site Reliability Engineer

    il y a 11 heures


    Paris, Île-de-France Tyfali Consulting Temps plein

    Nous recherchons un(e)Site Reliability Engineer (SRE) Seniorpour renforcer les équipes de notre client grand compte ; acteur majeur duSaas B2B, en charge d'une plateforme critique à forte volumétrie.Le client évolue dans un contexte detransformation technologique, avec des enjeux forts defiabilité, performance, observabilité et scalabilité, sur une...