Site Reliability Engineer

il y a 2 semaines

Lambersart, Hauts-de-France OTTEO Temps plein

OTTEO, c'est une société de conseil en ingénierie spécialisée dans l'IT, l'industrie et la transformation digitale depuis plus de 10 ans.Depuis Lille, Nantes, Paris, Lyon et Le Bourget-du-lac, elle déploie ses services autour de 3 offres :OTTEO Consulting : Pour permettre aux experts de l'ingénierie et à nos clients de travailler ensemble sur des projets donnés.OTTEO RH-Solutions : Pour recruter les talents qui rejoindront les équipes de nos clients.OTTEO Formation : Pour développer les compétences des professionnels et aider leur reconversion.Nos expertise, implantation et rayonnement nous permettent de collaborer avec des entreprises diverses en France et à l'étranger, et de couvrir de nombreux secteurs d'activités (aérospatial, énergies renouvelables, automobile, aéronautique, ferroviaire, ...).Parce que s'engager nous est primordial et que des preuves valent plus que des mots, nous sommes certifiés pour nos démarches environnementales, qualité et sécurité, à destination de nos salariés et clients.

ET SI VOUS DEVENIEZ CONSULTANT CHEZ NOUS ?

Mais d'abord, c'est quoi un consultant ? Evidemment, c'est un collaborateur qui accompagnera nos clients dans la réalisation de leurs projets innovants. Mais être consultant chez OTTEO, c'est aussi être un ambassadeur, qui participera à l'évolution et à la croissance de la société

Votre 1er projet :

Vous accompagnerez notre client, entreprise historique de la région.

Celle-ci est en cours de déploiement d'une nouvelle stack technique est à besoin de votre expertise.

Votre intégrerez une équipe en charge du bon déploiement de cette stack et veillerez à gérer en parallèle l'ancienne qui est toujours en production.

En tant que Production Expert, vous pourrez vous attendre non seulement à assumer la responsabilité de l'ensemble des questions de production de l'écosystème (monitoring, alerting, ...) mais aussi à aider à concevoir la meilleure expérience d'offre pour nos clients.

Vos missions :

Mettre en place les mesures préventives et correctives pour assurer une haute disponibilité et fiabilité des applications.
Analyser, diagnostiquer et faire corriger des dysfonctionnements applicatifs ;
Fournir et mettre à la disposition des différentes équipes les KPIs et Metrics permettant de suivre en temps réel l'état "full stack" des applications (du front à l'infra ..).
Créer des logiciels, scripts, outils pour faciliter la gestion de la production et du support et pour automatiser toutes sortes de tâches.
Documenter les connaissances et les procédures opérationnelles
Répondre aux incidents, résoudre les dysfonctionnements et gérer les escalades
Leader les comptes rendus d'incidents de production (via des Post mortem par exemple), pour optimiser les cycles de développement et les cycles de vie des incidents.
Assurer le transfert et le partage de connaissances auprès des équipes de développement afin de contribuer à leur autonomie.
Assurer la prise en charge et le traitement des remontées utilisateurs
Être enclin à accompagner le suivi de production, gérer la communication d'incident sur le produit
Mettre en place et améliorer le monitoring, l'alerting et l'observabilité (dont les SLI/SLO, et le choix des Error budgets) technique et fonctionnel permettant une identification précoce des incidents.

Vous vous y voyez déjà, pas vrai ? Ça tombe bien, ce n'est pas fini

Vous êtes arrivé jusqu'ici ? C'est que l'offre doit vous plaire Alors si vous vous sentez l'âme d'un ambassadeur OTTEO, rien de plus simple Il vous suffit :

Avoir une première expérience de la méthodologie SRE
D'avoir au moins 3 années d'expérience sur des sujets similaires
D'avoir de bonnes connaissances et des compétences en :
- Anglais (B2 minimum)
- Maîtrise des APIs REST
- Solide expérience en programmation et scripting : Python, Java, Bash
- Solution Cloud - GCP
- CI/CD (GitHub Actions), Automatisation (Terraform)
- Très bonne maîtrise (mandatory) des outils de monitoring et observabilité : Datadog, PagerDuty, Splunk, OpenTelemtry.
- Solide expérience dans la mise en place de monitoring fonctionnel et opérationnel d'applications ( Dashboarding, Alerting, etc,..) ainsi que la gestion de logs
- Connaissances sur l'outillage lié à la pratique du support sur des environnements complexes (ITSM)

Amériques

Europe

Asie / Océanie

Afrique

Site Reliability Engineer