Senior Site Reliability Engineer

il y a 23 heures

Strasbourg, Grand Est, France Scalingo Temps plein

À propos de Scalingo

Scalingo est une startup technologique en forte croissance. Notre plateforme cloud européenne, robuste et souveraine, libère les équipes techniques des contraintes d'infrastructure, pour leur permettre de se concentrer sur ce qui compte vraiment : créer, innover et délivrer.

Notre PaaS permet de déployer et d'héberger facilement des applications web et des bases de données, sans avoir à gérer l'administration système ou l'infrastructure sous-jacente.

Nous accompagnons une grande diversité de clients — startups, scale-ups, grands groupes et institutions publiques — parmi lesquels le Ministère de l'Intérieur ou ENGIE, avec une exigence élevée en matière de fiabilité, de sécurité et de qualité de service.

Ton rôle chez Scalingo

En tant que Senior Site Reliability Engineer, tu occupes une position clé à l'interface des équipes développement, infrastructure, sécurité et support.

Ton rôle est à la fois :

technique, avec un fort impact sur la fiabilité et la performance de la plateforme,
structurant, en faisant évoluer les pratiques et les outils SRE et audelà.,
fédérateur, en accompagnant et faisant monter en compétence une équipe SRE de 2 personnes.

Tu interviens aussi bien sur le fonctionnement quotidien de l'activité SRE que sur les projets stratégiques liés à la croissance de la plateforme. Référent ou référente technique, tu incarnes les bonnes pratiques SRE et contribues à diffuser une culture de la fiabilité, de l'automatisation et de l'excellence opérationnelle au sein de Scalingo.

Pourquoi ce rôle est essentiel

Garantir la stabilité, la disponibilité et la résilience des systèmes en production.
Anticiper les défaillances et structurer des réponses efficaces aux incidents.
Industrialiser et automatiser l'exploitation de la plateforme.
Maintenir un haut niveau de qualité de service vis-à-vis de nos clients et de nos engagements contractuels (SLA).

Chaque amélioration que tu apportes contribue directement à la robustesse de la plateforme, à la réduction des incidents, à la maîtrise des coûts opérationnels et à l'accompagnement de la croissance de Scalingo.

Organisation & évolution

Rattaché directement à un Engineering Manager, tu exerces un leadership technique et opérationnel fort, sans responsabilité hiérarchique directe dans un premier temps.

À moyen terme, nous souhaitons que ce rôle évolue vers le management hierarchique de l'équipe SRE. Si cette perspective t'intéresse, nous t'accompagnerons activement dans ta montée en compétences managériale.

Vos missions

Leadership technique et animation de l'équipe SRE

Encadrer techniquement l'équipe SRE au quotidien : accompagnement, priorisation, revue des choix techniques et des implémentations.
Guider, former et faire monter en compétence les membres de l'équipe, en favorisant l'autonomie et la prise d'initiative.
Transmettre les bonnes pratiques SRE (fiabilité, observabilité, gestion d'incidents, automatisation).
Être moteur dans l'organisation du travail de l'équipe (processus, rituels, documentation).
Porter la vision technique SRE et la décliner dans les projets structurants.

Fiabilisation et amélioration continue des services

Analyser les performances, identifier les points de contention et proposer des améliorations pour optimiser l'utilisation des ressources et la montée en charge.
Définir, mettre en place et améliorer les outils d'observabilité (monitoring, métriques, logs, alerting), avec une approche proactive de la détection d'incidents.
Rédiger des processus d'exploitation, les maintenir et les faire évoluer.
Assurer une veille technologique continue afin de proposer des évolutions pertinentes de l'infrastructure.

Gestion des incidents et support

Assurer en partie le support client de niveau 3, en lien avec les équipes support et selon les SLA.
Participer activement à la gestion des incidents, ainsi qu'aux cycles d'astreintes (environ une demi-semaine toutes les trois semaines).
Intervenir rapidement lors des incidents critiques afin d'en limiter l'impact et d'assurer la continuité des services.
Piloter et animer les rétrospectives d'incidents (post-mortems), en identifiant les causes racines et en définissant des actions correctives durables.
Rédiger et publier les rapports post-mortem à la suite des incidents majeurs.
Assurer la coordination et la communication de crise, en interne comme auprès des clients.

Sécurité, conformité et continuité d'activité

Veiller au respect des engagements de service (SLA, RPO, RTO) sur le périmètre SRE.
Mettre en place des indicateurs de mesure de la qualité des services (SLO).
Contribuer activement à la conformité ISO 27001 et HDS : respect des processus, participation aux audits internes et externes.
Planifier, exécuter et analyser les tests réguliers des dispositifs de continuité et de reprise d'activité (PCA/PRA).

Collaboration interne et contribution transverse

Collaborer étroitement avec les équipes de développement afin d'intégrer les exigences d'exploitabilité (fiabilité, performance, sécurité opérationnelle) dès la conception.
Être force de proposition auprès des équipes produit et techniques sur les sujets de fiabilité, d'expérience client et des outils d'administration.
Contribuer à la rédaction, à la structuration et au maintien d'une documentation opérationnelle claire et à jour.

Vos compétences

Ce que tu sais faire en arrivant :

Une solide expertise des environnements cloud et infrastructures distribuées, avec une culture forte de la haute disponibilité et de la fiabilité en production.
Une maîtrise des pratiques d'observabilité (logs, métriques, alerting) et une capacité de diagnostic structurée sur des incidents complexes.
Une bonne compréhension des environnements conteneurisés et de leurs enjeux opérationnels.
Des compétences confirmées en bases de données en production : fiabilité, sauvegardes, restauration, réplication et montée en charge.
Une pratique de l'Infrastructure as Code et de l'automatisation des environnements.
Une sensibilité aux enjeux de sécurité opérationnelle.
Une aisance dans l'utilisation des outils d'Intelligence Artificielle pour gagner en efficacité au quotidien.
Une capacité à évoluer dans des contextes complexes, changeants ou incertains, avec rigueur et fiabilité.
Une aisance dans la priorisation, y compris en situation d'incident.
Une communication claire et structurée, un goût pour la collaboration transverse et le partage des connaissances.
Une posture blameless, de la curiosité technique, du sang-froid et une attention portée à l'impact utilisateur.
Une capacité à exercer un leadership technique, à transmettre et à faire progresser les pratiques collectives.

Avantages

Full remote avec 1 déplacement par trimestre (Strasbourg ou autre ville)
Evenéments d'entreprise : 1 Offsite annuel et des afterworks réguliers
Prime de télétravail (57,60€)
Ticket Restaurant (11,52 € par unité) et carte Swile avec ses avantages
Mutuelle prise en charge à 100% par Scalingo (BENEFIZ)
Horaires flexibles en convention de forfait horaires (RTT)
Ordinateur portable sous Linux
Budget d'équipements complémentaires (participation)

Processus de recrutement

Call de pré-qualification (30 min) : nous t'appelons pour te présenter l'offre et la clarifier si besoin. C'est toi qui décides si tu souhaites poursuivre l'étape suivante.
Test de pré-screening (30 min) : un test standardisé de type QCM, à passer en ligne. Il nous permet d'évaluer les candidatures de manière objective, en limitant les biais de recrutement. Une note minimale est requise pour passer cette étape.
Test hard-skill (quelques heures sur 7 jours) : un test technique à réaliser et à nous restituer à la date de ton choix, après avoir pris connaissance des consignes. L'objectif est d'évaluer tes compétences, tes habitudes et tes bonnes pratiques en lien avec le poste. Nous t'encouragerons à démontrer que tu sais utiliser le meilleur de l'I.A.
Premier entretien structuré – skill & aptitude fit (1h30) : un échange avec les membres de l'équipe impliqués dans le recrutement, pour discuter de tes compétences et de ton expérience, et évaluer leur adéquation avec le poste.
Second entretien structuré – culture fit & confirmation mutuelle (1h30) : un entretien avec un co-fondateur ou un autre membre de l'équipe, afin de vérifier des deux côtés que nous avons envie de travailler ensemble.

La vie chez Scalingo

Chez Scalingo, nous sommes un acteur technologique exigeant, au service aussi bien de startups que de grandes entreprises et d'institutions publiques, sans être une méga-corporation. Cette position nous permet de conjuguer haut niveau d'exigence technique, impact concret et environnement de travail à taille humaine.

Nous cultivons une culture du no bullshit : nous faisons ce que nous disons, nous prenons la responsabilité de nos succès comme de nos échecs, et nous privilégions des échanges honnêtes et directs. L'amélioration continue fait partie de notre ADN : nous questionnons régulièrement nos produits, nos pratiques et notre organisation pour progresser durablement.

Chez Scalingo, nous avançons ensemble. La collaboration, la confiance et le soutien mutuel sont au cœur de notre manière de travailler. Nous évitons les silos et favorisons la transparence par défaut, afin que chacun puisse comprendre les enjeux, les décisions et le travail des autres.

Nous accordons une grande importance à l'autonomie et à la responsabilité. Chacun est encouragé à prendre des initiatives, à faire des choix éclairés et à contribuer activement à l'évolution de l'entreprise, avec un cadre managérial présent et un suivi régulier.

Enfin, nous croyons fermement à l'égalité des opportunités. Nous recrutons des personnes avant des CV, valorisons la diversité des parcours et veillons à créer un environnement respectueux, inclusif et équitable pour toutes et tous.

Senior Site Reliability Engineer

il y a 20 heures

Strasbourg, Grand Est, France Scalingo Temps plein

À propos de ScalingoScalingo est une startup technologique en forte croissance. Notre plateforme cloud européenne, robuste et souveraine, libère les équipes techniques des contraintes d'infrastructure, pour leur permettre de se concentrer sur ce qui compte vraiment : créer, innover et délivrer.Notre PaaS permet de déployer et d'héberger facilement...
Senior Network Engineer Specialist

il y a 5 jours

Strasbourg, Grand Est, France Seidor Gesein Temps plein

We are looking for a Senior Network Engineer Specialist with solid experience in Cisco ACI to design, implement, and maintain high-performance network infrastructures. You will be responsible for ensuring the reliability, security, and scalability of complex LAN/WAN environments in an international and dynamic setting.TasksDesign, configure, and maintain...
Data Engineer Senior

il y a 3 jours

Strasbourg, Grand Est, France Collective Temps plein

Data Engineer Senior / Consultant BI SeniorContexte de la missionLa mission s'inscrit au sein de l'équipe DATA-IA, responsable des référentiels de données et des outils de reporting opérationnels et stratégiques. La mission est en relation avec la distribution électriques (compteurs Linky, qualité du réseau, incidents, fraude,...
Senior Operations Support Engineer

il y a 2 semaines

Strasbourg, Grand Est, France EUROPEAN DYNAMICS Temps plein

We currently have a vacancy for a Senior Operations Support Engineer in English, to offer his/her services as an expert who will be based in Strasbourg, France. The work will be carried out either in the company's premises or on site at customer premises. In the context of the first assignment, the successful candidate will be integrated in the Development...
Non-Functional Performance Test Engineer

il y a 5 jours

Strasbourg, Grand Est, France Stott and May Temps plein

Non-Functional Performance Test EngineerLocation:Strasbourg, France (Hybrid -80% on-site/ 20% off-site or 50% on-site /50% off-site)Contract Type:FreelanceStart Date:ImmediateDuration:12 months, with possible extensionEU Nationality RequiredRole OverviewThe Non-Functional Performance Test Engineer will be responsible for defining, executing and managing...
Senior DevOps/Platform Expert, Strasbourg

il y a 3 jours

Strasbourg, Grand Est, France The Whiteam Temps plein

Senior DevOps/Platform Expert, Strasbourg (On Site) – European OrganisationJob role: DevOps Admin.Minimum experience: 7 to 10 years.Studies required: Bachelor's Degree.Language: English (C1).Location: Strasbourg (On Site).Main Knowledge: CI/CD, DevOps, Git.DESCRIPTION:Senior DevOps/Platform Expert responsible for supporting and enhancing cloud-native...
QA Automation Engineer

il y a 1 semaine

Strasbourg, Grand Est, France Asteri AI, Inc. Temps plein

About Asteri AIAsteri AI is an AI-native Work Intelligence and Orchestration Platform that helps large enterprises understand how work actually gets done, and how it should get done in the era of AI. By providing deep insight into enterprise operations, Asteri enables organizations to integrate AI alongside humans in a safe, scalable, and measurable way,...
Senior DevOps/Platform Expert, Strasbourg

il y a 5 jours

Strasbourg, Grand Est, France TheWhiteam Temps plein

Job role:DevOps Admin.Minimum experience:7 to 10 years.Studies required: Bachelor's Degree.Language:English (C1).Location:Strasbourg (On Site).Main Knowledge:CI/CD, DevOps, Git.DESCRIPTION:Senior DevOps/Platform Expert responsible for supporting and enhancing cloud-native operations within a multi-team environment. The role focuses on promoting DevOps...
Senior Test Engineer

il y a 1 semaine

Strasbourg, Grand Est, France CMS Global Solutions Ltd Temps plein

Job Title: Test EngineerLocation: Strasbourg (80% onsite/20% remote)Job Type: Contract B2B/FreelancerDaily Rate: €450 per day for onsite work/€350 for the remote days workedWe have an exciting opportunity to join a very long term project at a at an European Union Institution based 80% of the year in Strasbourg/20% working remote.We are looking for a Test...
Non-Functional Performance Test Engineer

il y a 1 jour

Strasbourg, Grand Est, France ConSol Partners Temps plein

Non-Functional Performance Test EngineerLocation : StrasbourgPossible work settings and corresponding rates:-80% on-site / 20% off-site-400€ on-site / 300€ off-site-50% on-site / 50% off-site-400€ on-site / 250€ off-siteStart date : ImmediatelyDuration : 1 year; possible extensionsContract : Freelance onlyPreliminary Requirements:Candidate should...

Amériques

Europe

Asie / Océanie

Afrique

Senior Site Reliability Engineer