CDI - Site Reliability Engineer (H/F)

il y a 5 heures

Paris, Île-de-France Hermès Temps plein

À propos :
Artisans contemporains depuis 1837, nous devenons également artisans du code
Hermès Digital développe, maintient et met à disposition la plateforme e-commerce de la Maison Hermès dans 34 pays à travers le monde. Dans un contexte d'hyper-croissance, et face aux enjeux qui en découlent, nous avons souhaité développer une
nouvelle solution e-commerce full-custom
et
orientée micro-services
afin de répondre au mieux aux besoins de nos clients. Ce projet de grande envergure est une opportunité unique pour créer un système e-commerce
from scratch
.

Nous voulons faire ressentir au travers du code et de l'architecture de cette plateforme la qualité et l'excellence que reflètent les créations Hermès. Pour ce faire, le projet sera mené selon les meilleurs pratiques de conception :
TDD, DDD
,
architecture hexagonale
… Le tout en
pair programming
pour permettre à chacun d'apprendre, de transmettre et d'évoluer 

Descriptif du poste :
En tant que
SRE
, au sein de l'équipe
H
ermès
D
igital
I
nfrastructures
HDI
et sous la responsabilité du Responsable Infrastructure, vous jouerez un rôle essentiel dans la garantie de la fiabilité et des performances des services numériques de notre organisation.

Vous travaillerez en étroite collaboration avec l'équipe de développement logiciel pour concevoir, mettre en œuvre et entretenir des systèmes répondant à des normes élevées en matière de disponibilité et de performance.

Vos responsabilités comprendront la Build et l'optimisation de l'infrastructure, l'Observability des systèmes, l'automatisation des tâches, la gestion des incidents et la collaboration avec les équipes de développement afin d'améliorer la fiabilité des services au sein de notre organisation.

Vous devrez travailler en étroite collaboration avec l'équipe Platform Engineering afin de communiquer vos observations et contribuer à l'amélioration des processus et de l'utilisation des outils, en tirant parti de votre expérience dans la collaboration avec les équipes de développement logiciel.

Vos missions :
Un SRE sera intégré à une ou plusieurs équipes de développement (Features teams) et sera donc responsable des Backlog d'infrastructure relatifs à ses équipes.

Afin de garantir le bon déroulement de sa mission quotidienne, les SRE est responsable de :

Gérer les sujets liés à l'infrastructure dans les backlogs des équipes de fonctionnalités dont il est responsable.

Le SRE travaille en étroite collaboration avec le PO, le Technical Leader et l'équipe technique pour comprendre les objectifs de l'équipe et définir la stratégie technique locale pour l'infrastructure.

Le SRE participe aux différents rituels des équipes de fonctionnalités dont il est responsable.

Gérer la CAF (Capacité A Faire) consolidée pour le Backlog d'infrastructure de chaque équipe de fonctionnalités dont ils sont responsables

Le SRE est chargé de prendre en compte la capacité (CAF) avec tous les facteurs liés à ses Backlog en collaboration avec les Product Owners (PO) et les Technical Leaders de ses équipes. Cela implique de prendre en considération divers aspects tels que les exigences métier et techniques et d'autres facteurs pertinents pour prendre les bonnes décisions concernant la gestion des Backlogs.

Prioriser le traitement des différentes demandes de Build à travers les différents Backlogs

Le SRE définit – en collaboration avec les PO et les Technical Leaders – et communique l'ordre dans lequel les différentes demandes de Build sont exécutées pour ses différents Backlogs. Cette priorisation garantit que les tâches critiques sont traitées rapidement et dans le bon ordre, contribuant ainsi à la fiabilité globale et aux performances des différents services au sein de notre organisation.

Garantir la qualité de l'infrastructure déployée dans son domaine d'activité

Le SRE est responsable de la qualité de l'infrastructure qu'il déploie, y compris sa stabilité, sa sécurité et sa conformité aux meilleures pratiques et aux normes de notre organisation.

Construire l'infrastructure selon les besoins

Lorsqu'une nouvelle infrastructure est nécessaire, le SRE est responsable de sa création et de sa configuration. Cela peut impliquer la configuration de serveurs, de bases de données, de réseaux ou d'autres composants selon les besoins.

Déléguer les tâches de Build en fonction des compétences et la maturité technique de ses équipes

Le SRE évalue l'expertise technique de ses équipes et attribue les tâches de Build en conséquence, veillant à ce que les membres de l'équipe travaillent sur des tâches conformes à leurs compétences et à leur expérience.

Le SRE s'engage dans une démarche de partage des connaissances, par le biais de sessions de peer programming ou autres.

Valider les Merge Request d'Infrastructure as Code (IaC) émanant des Devs

Le SRE
examine
et
approuve
les modifications apportées au code d'Infrastructure as Code (IaC). Cette étape de validation garantit que les modifications apportées à l'infrastructure sont cohérentes avec le code défini et n'introduisent pas de problèmes.

Développer et maintenir des systèmes de surveillance et d'alerte

Le SRE crée et gère des systèmes qui surveillent en permanence la santé et les performances des différents services et de l'infrastructure. Il configure également des alertes pour notifier les équipes en cas de problèmes potentiels ou d'incidents.

Collaborer avec les équipes de développement pour améliorer la fiabilité du système

Le SRE travaille en étroite collaboration avec les équipes de développement et l'équipe de Platform Engineering pour identifier et mettre en œuvre des améliorations visant à renforcer la fiabilité, la disponibilité et les performances des applications.

Planification et optimisation de la capacité

Le SRE évalue la capacité actuelle de l'infrastructure et planifient les besoins futurs. Ils optimisent l'allocation des ressources et la scalabilité de l'infrastructure pour garantir une utilisation efficace des ressources et une performance optimale des services.

Création de solutions d'automatisation pour les tâches répétitives

Afin de réduire le travail manuel et d'améliorer l'efficacité, le SRE automatise les tâches courantes, telles que la provision de serveurs ou la gestion des changements de configuration.

Fournir un soutien et une formation à l'équipe de développement

Le SRE aide les équipes de développement en offrant un soutien et une formation dans les domaines liés à l'infrastructure, à la fiabilité et aux meilleures pratiques.

Gérer et répondre efficacement aux incidents

Le SRE est responsable de la gestion et de la réponse aux incidents, veillant à ce que les problèmes soient résolus rapidement pour minimiser les temps d'arrêt et les interruptions.

Identifier et atténuer les goulets d'étranglement du système et les problèmes de performances

Le SRE identifie proactivement les goulets d'étranglement et les problèmes de performances au sein du système et prend des mesures pour les résoudre afin de maintenir des performances optimales du système.

Le SRE, en collaborant avec les Développeurs, contribue activement aux tests de performance pour identifier et résoudre proactivement les goulets d'étranglement potentiels et les problèmes de performances.

Établissement et promotion des meilleures pratiques en ingénierie de la fiabilité

Le SRE promeut et met en œuvre les meilleures pratiques dans le domaine de l'ingénierie de la fiabilité, encourageant une culture d'amélioration continue.

Conformité en matière de sécurité

Le SRE Veille à ce que l'infrastructure respecte les normes de conformité en matière de sécurité.

Planification du Disaster Recovery Plan

Développer et maintenir des plans de reprise après sinistre pour minimiser les temps d'arrêt en cas de défaillance du système.

Optimisation des coûts

Le SRE est responsable de la surveillance et de l'optimisation des coûts de l'infrastructure, y compris l'allocation et l'efficacité d'utilisation des ressources.

Documentation

Le SRE est responsable de la rédaction et de la mise à jour de la documentation relative à l'infrastructure, aux processus et aux meilleures pratiques pour faciliter le partage des connaissances et l'intégration des nouveaux membres de l'équipe.

Environnement technique :

Langages de programmation : PHP 8, Javascript
Framework : Symfony 5, NodeJs, ReactJs
Web services : RESTful
Cloud: AWS, Alibaba Cloud
Orchestration et conteneurs : Kubernetes, Docker
Automatisation : Terraform, Helm, Kostumize
Gestion des configurations : Ansible
Architecture événementielle : SQS, SNS, Kafka
Moteur de recherche : ElasticSearch
Bases de données : Postgresql, MySQL, MongoDB
Cache : Elasticache Redis / Memcache
Observabilité: Prometheus, Thanos, Loki, Tempo, Grafana
Artifactory: JFrog
CI/CD : Jenkins, Gitlab, ArgoCD
Security : HashiCorp Vault, OKTA

Bénéfices pour vous :
Vous rejoignez la Maison Hermès, artisan de produits d'exception 

Vous êtes au cœur d'un projet
from scratch
passionnant

Vous intégrez une équipe bienveillante soucieuse de la qualité de son code et de l'évolution de ses membres,

Vous bénéficiez d'une grande autonomie et vos prises d'initiatives sont encouragées.

Profil recherché :
Compétences Techniques :

Vous avez au minimum 3 ans d'expérience professionnelle en tant que SRE. Vous êtes adepte des méthodes agiles, méthodologie SRE et GitOps.
Vous avez une maîtrise approfondie de la plateforme AWS, Docker et Kubernetes (EKS).
L'Infrastructure as Code (Terraform, Ansible, Helm et Kustomize),
L'observabilité (Prometheus, Thanos, Loki, Tempo, Grafana)
Le CI/CD (Gitlab-CI, Jenkins, Sonarqube, ArgoCD),
La création d'environnements et la sécurité n'ont pas de secret pour vous.
Vous avez déjà mis en place et maintenu des services communs, tels que

Authorization Server (OpenID provider)

Event Bus/Messaging.

Vault

Vous pratiquez couramment l'Anglais (à l'écrit et à l'oral).

Compétences Comportementales :

Vous avez un
excellent sens relationnel
et vous êtes bon
communicant
. Vous avez une bonne
capacité d'adaptation,
le
souci du résultat
, le
sens du service
et l'
esprit d'équipe
. Vous êtes
curieux
et
rigoureux
. Enfin, vous avez l'envie et la capacité d'
auto-apprentissage,
vous cherchez à vous
améliorer en continu 
Employeur responsable, nous nous engageons dans l'éthique, les diversités et l'inclusion. Rejoignez l'aventure humaine Hermès

Senior Site Reliability Engineer

il y a 2 semaines

Paris, Île-de-France Swile Temps plein

At Swile, we believe that good products can help reduce friction in daily professional life and boost employee satisfaction. Today, we provide innovative solutions in various areas such as Fintech, Travel, HR, and Employee Benefits to more than 5.5 million users in 85,000 companies in France and Brazil. Your role as a Senior Site Reliability Engineer (SRE)...
Site Reliability Engineer

il y a 4 jours

Paris, Île-de-France Criteo Temps plein

What You'll Do:The Platform Core group at Criteo is composed of seven agile, human-sized teams providing the foundational platform and systems powering all Criteo products.Within this group, the Analytics Infrastructure team builds and operates the distributed, multi-datacenter analytic data stores and platforms enabling interactive querying, exploration,...
Site Reliability Engineer

il y a 10 heures

Paris, Île-de-France Criteo Temps plein

What You'll Do:About the TeamThe Platform Core group at Criteo is composed of seven agile, human-sized teams providing the foundational platform and systems powering all Criteo products.Within this group, the Analytics Infrastructure team builds and operates the distributed, multi-datacenter analytic data stores and platforms enabling interactive querying,...
Site Reliability Engineer II

il y a 2 semaines

Paris, Île-de-France Doctolib Temps plein

What we doDoctolib's Engineering environment is rich and we are building innovative products and features aiming each day to ease doctors' and patient life. We are looking for a Site Reliability Engineer II to keep Doctolib production systems running smoothly. You will also be a key-player to support the exponential growth of Doctolib services.What you will...
Site Reliability Engineer II

il y a 7 jours

Paris, Île-de-France Doctolib Temps plein

What We DoDoctolib's Engineering environment is rich and we are building innovative products and features aiming each day to ease doctors' and patient life. We are looking for aSite Reliability Engineer IIto keep Doctolib production systems running smoothly. You will also be a key-player to support the exponential growth of Doctolib services.What You Will...
Site Reliability Engineer

il y a 2 jours

Paris, Île-de-France Criteo Temps plein

What You'll Do: About the TeamThe Platform Core group at Criteo is composed of seven agile, human-sized teams providing the foundational platform and systems powering all Criteo products.Within this group, the Analytics Infrastructure team builds and operates the distributed, multi-datacenter analytic data stores and platforms enabling interactive...
Senior Site Reliability Engineer

il y a 2 semaines

Paris, Île-de-France Criteo Temps plein

What You'll Do:The concept of Product Reliability Engineering (PRE) draws inspiration from the principles of SRE. At Criteo, PRE acts as the bridge between Product, Platform Engineering and Infrastructure. The PRE group comprises eight global engineering teams with a common objective: to build the most reliable platform in AdTech.How You'll Make An ImpactAs...
Site Reliability Engineer

il y a 2 jours

Paris, Île-de-France NEXTON Temps plein

de l'entrepriseQui sommes-nous ?Rejoindre NEXTON, c'est intégrer une entreprise où convergent l'esprit d'un cabinet de conseil, la créativité d'une agence et la dynamique d'une ESN Grâce à notre expertise, nous accompagnons des clients grands comptes et des pure players tels que SNCF, Orange, et BNP Paribas dans leurs stratégies d'évolution et...
Site Reliability Engineer

il y a 2 jours

Paris, Île-de-France NEXTON Temps plein

Description de l'entrepriseQui sommes-nous ?Rejoindre NEXTON, c'est intégrer une entreprise où convergent l'esprit d'un cabinet de conseil, la créativité d'une agence et la dynamique d'une ESN Grâce à notre expertise, nous accompagnons des clients grands comptes et des pure players tels que SNCF, Orange, et BNP Paribas dans leurs stratégies...
Senior Site Reliability Engineer

il y a 1 semaine

Paris, Île-de-France Collective Temps plein

Budget: selon profilDescription De La MissionSenior Site Reliability EngineerSecteur Énergie / Gaz15/01/2026Contexte ClientNotre client est une filiale d'un groupe international majeur du secteur de l'énergie, opérant à l'échelle mondiale et s'appuyant sur des plateformes digitales communes pour le développement et l'exploitation de ses produits...

Amériques

Europe

Asie / Océanie

Afrique

CDI - Site Reliability Engineer (H/F)