Site Reliability Engineer
il y a 2 semaines
ET SI VOUS DEVENIEZ CONSULTANT CHEZ NOUS ?
Mais d'abord, c'est quoi un consultant ? Evidemment, c'est un collaborateur qui accompagnera nos clients dans la réalisation de leurs projets innovants. Mais être consultant chez OTTEO, c'est aussi être un ambassadeur, qui participera à l'évolution et à la croissance de la société
Votre 1er projet :
Vous accompagnerez notre client, entreprise historique de la région.
Celle-ci est en cours de déploiement d'une nouvelle stack technique est à besoin de votre expertise.
Votre intégrerez une équipe en charge du bon déploiement de cette stack et veillerez à gérer en parallèle l'ancienne qui est toujours en production.
En tant que Production Expert, vous pourrez vous attendre non seulement à assumer la responsabilité de l'ensemble des questions de production de l'écosystème (monitoring, alerting, ...) mais aussi à aider à concevoir la meilleure expérience d'offre pour nos clients.
Vos missions :
- Mettre en place les mesures préventives et correctives pour assurer une haute disponibilité et fiabilité des applications.
- Analyser, diagnostiquer et faire corriger des dysfonctionnements applicatifs ;
- Fournir et mettre à la disposition des différentes équipes les KPIs et Metrics permettant de suivre en temps réel l'état "full stack" des applications (du front à l'infra ..).
- Créer des logiciels, scripts, outils pour faciliter la gestion de la production et du support et pour automatiser toutes sortes de tâches.
- Documenter les connaissances et les procédures opérationnelles
- Répondre aux incidents, résoudre les dysfonctionnements et gérer les escalades
- Leader les comptes rendus d'incidents de production (via des Post mortem par exemple), pour optimiser les cycles de développement et les cycles de vie des incidents.
- Assurer le transfert et le partage de connaissances auprès des équipes de développement afin de contribuer à leur autonomie.
- Assurer la prise en charge et le traitement des remontées utilisateurs
- Être enclin à accompagner le suivi de production, gérer la communication d'incident sur le produit
- Mettre en place et améliorer le monitoring, l'alerting et l'observabilité (dont les SLI/SLO, et le choix des Error budgets) technique et fonctionnel permettant une identification précoce des incidents.
Vous vous y voyez déjà, pas vrai ? Ça tombe bien, ce n'est pas fini
Vous êtes arrivé jusqu'ici ? C'est que l'offre doit vous plaire Alors si vous vous sentez l'âme d'un ambassadeur OTTEO, rien de plus simple Il vous suffit :
- Avoir une première expérience de la méthodologie SRE
- D'avoir au moins 3 années d'expérience sur des sujets similaires
- D'avoir de bonnes connaissances et des compétences en :
- Anglais (B2 minimum)
- Maîtrise des APIs REST
- Solide expérience en programmation et scripting : Python, Java, Bash
- Solution Cloud - GCP
- CI/CD (GitHub Actions), Automatisation (Terraform)
- Très bonne maîtrise (mandatory) des outils de monitoring et observabilité : Datadog, PagerDuty, Splunk, OpenTelemtry.
- Solide expérience dans la mise en place de monitoring fonctionnel et opérationnel d'applications ( Dashboarding, Alerting, etc,..) ainsi que la gestion de logs
- Connaissances sur l'outillage lié à la pratique du support sur des environnements complexes (ITSM)