Ingenieur systemes
il y a 4 jours
Nous recrutons
un·e Ingénieur systèmes & operation Usine GPU
afin de renforcer
notre équipe AI Factory.
OUTSCALE, marque de Dassault Systèmes,
est un opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.
Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l'obtention de la qualification SecNumCloud.
Vos missions
- Déployer les couches logicielles, depuis les OS de base jusqu'aux couches d'abstraction de type hyperviseur de virtualisation, orchestrateur de container
- Configurer les serveurs, des couches réseaux, en particulier du réseau Infiniband et des commutateurs Nvlink
- Mettre en place les outils de supervision et de monitoring, en particulier :
- La surveillance matérielle de l'usine à IA allant des moyens de refroidissement (CDU / échangeurs thermiques, identification des fuites d'eau), les moyens de calcul (serveurs), les équipements de communication réseau et fabric internes aux serveurs (Nvlink), les GPU (température, performance, utilisation)
- La surveillance système pour toutes les couches logicielles de bas niveau
- La surveillance des services qui seront définis
- La surveillance de la disponibilité et de la performance du stockage
- La surveillance des performances d'ensemble de bout-en-bout
- La mise en place d'un cockpit de supervision permettant de visualiser de manière synthétique l'état de l'usine à GPU
- La mise en place d'un dashboard management permettant de visualiser des éléments simplifiés à l'usage du management de l'entreprise et permettant de visualiser l'état de disponibilité des services et l'état des performances des services
- Elaborer les dispositifs permettant l'automatisation des opérations, en particulier :
- La mise à jour des composants logiciels
- La relance / réparation (self-healing) des composants logiciels lorsque c'est faisable
- L'isolation de GPU / nœuds / serveurs qui ne seraient plus en mesure d'exécuter des traitements
- La relance des traitements sur un autre serveur lorsque cela est faisable au niveau applicatif
- Elaborer les process de support, de gestion des incidents, de mise à jour des environnements (GPU / BIOS / NvSwitch / NIC)
- Gérer la capacité avec identification en avance de phase des saturations, identifier les usages principaux et mettre en place les dashboards qui permettent la prise de décision sur les investissements à réaliser
- Gérer la sécurité en relation avec les équipes Cyber Sécurité d'OUTSCALE
- Gérer le réseau au sein des serveurs en relation avec les ingénieurs réseaux dédiés à l'AI Factory
- Paramétrer les outils de management de l'usine à GPU
- Paramétrer les accès au stockage, vérifier la performance d'accès au stockage pour l'ensemble des nœuds
- Sauvegarder et restaurer les configurations qui permettent la relance de l'usine à GPU en cas de dysfonctionnement
- Elaborer un plan de débordement afin d'utiliser une autre usine à GPU en cas de saturation
- Elaborer un plan de secours permettant de redémarrer le service sur une autre usine à GPU en cas d'indisponibilité majeure
- Assurer le support aux utilisateurs internes
- Intégrer les nouveaux services développés par les équipes internes ou basés sur des solutions tierces (par exemple Nvidia)
- Mettre en œuvre les outils Nvidia Mission Control et Nvidia Run:ai
- Mettre en place le métrique de coût (€/TFLOPS, €/VM, €/heure GPU)
Stack technique
- Administration système d'exploitation Linux (pas uniquement utilisateur)
- Déploiement et opération de containers en particulier Docker et/ou Kubernetes
- Déploiement et/ou administration d'infrastructure de supercalcul (HPC / High performance computing)
- Administration réseau / connaissance de la stack IP / déploiement de réseaux Cisco / certification Cisco Cloud Expert AWS ou GCP ou Azure
- Déploiement / administration d'hyperviseurs de virtualisation, ou de logiciels d'orchestration
- Cloud Administration des outils de gestion d'infrastructure Nvidia : Mission Control et/ou Run:ai
- L'une des certification suivante: Kubernetes CKA/CKS, Nvidia Certified, Cisco CCNP/CCIE, RedHat RHCE
Votre profil
- Diplômé·e d'un Master en ingénierie informatique, ou en commerce, vous possédez déjà une expérience professionnelle post diplôme minimum de 2 ans en tant que ingénieur systemes & operation Usine GPU
- Vous parlez français et anglaIs couramment
- Vous appréciez travailler en équipe et possédez un bon relationnel.
- Rigoureux, autonome et réactif, vous êtes naturellement force de proposition.
Nous rejoindre c'est aussi
Intégrer une entreprise scientifique au cœur de l'innovation technologique, portée par une forte croissance depuis plus de 40 ans
Principaux avantages et bénéfices :
- Environnement multiculturel
- Cadre de travail convivial axé sur le bien-être et la santé
- Engagement en faveur de la diversité et de l'inclusion
- Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc.
Inclusion statement
As a game-changer in sustainable technology and innovation, Dassault Systèmes is striving to build more inclusive and diverse teams across the globe. We believe that our people are our number one asset and we want all employees to feel empowered to bring their whole selves to work every day. It is our goal that our people feel a sense of pride and a passion for belonging. As a company leading change, it's our responsibility to foster opportunities for all people to participate in a harmonized Workforce of the Future.
-
Ingenieur systemes
il y a 4 jours
Saint-Cloud, Île-de-France Outscale Temps pleinNous recrutons un·e Ingénieur systèmes & operation Usine GPU afin de renforcer notre équipe AI Factory.OUTSCALE, marque de Dassault Systèmes, est un opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.Nous offrons des expériences uniques grâce au savoir-faire de...
-
Ingénieur Système Windows Confirmé
il y a 2 semaines
Saint-Cloud, Île-de-France EASYTEAM Temps pleinL'entrepriseEASYTEAM, étoile du groupe Constellation, est spécialisée dans les projets de Move to Cloud et les Services Managés. Notre engagement : un accompagnement global 24/7 par des offres d'Audit, de Cadrage, de Déploiement et de Run.Partenaire Oracle Platinum, IBM Platinum et Microsoft Gold , nous accompagnons nos clients sur toute la chaine de...
-
Ingénieur qualité
il y a 6 jours
Saint-Cloud, Île-de-France AEROCONTACT Temps pleinLa Direction Générale de la Qualité Totale (DGQT) met en uvre la politique de Qualité Totale visant à l'amélioration continue de la Société. Elle coordonne l'action Qualité en interne et celle de nos coopérants et fournisseurs.Nous recherchons un.e Ingénieur qualité pour rejoindre notre équipe Système de Management Qualité de la DGQT,...
-
Ingénieur Système CBTC
il y a 2 jours
Saint-Denis, Île-de-France Segula Technologies Temps pleinDescription de l'entreprise Explorez de nouveaux horizons au sein d'un groupe d'ingénierie mondiale à forte croissance. Chez SEGULA Technologies, vous aurez l'opportunité de travailler sur des projets passionnants et de façonner l'avenir au sein d'une entreprise pour qui l'innovation est indissociable de l'ingénierie. Nouvelles mobilités, véhicules...
-
Saint-Cloud, Île-de-France Centre Hospitalier Des Quatre Villes Temps pleinLe poste Le CH4V est depuis le 1er juillet 2016 l'établissement support du GHT des Hauts-de-Seine, comprenant quatre autres établissements : le Centre hospitalier Rives de Seine (Neuilly, Courbevoie, Puteaux), l'hôpital Stell à Rueil-Malmaison, la Fondation Roguet à Clichy, le Centre de gérontologie « Les Abondances » à Boulogne-Billancourt.Dans le...
-
Stage Performance qualité des systèmes et équipements F/H
il y a 16 heures
Saint-Cloud, Île-de-France AEROCONTACT Temps pleinAu sein de la Direction Générale de la Qualité Totale, vous serez rattaché/e au département Qualité des Systèmes/Equipements et vous travaillerez en étroite collaboration avec le département Méthodes et Soutien des Processus OutillésL'équipe Qualité Systèmes/Equipements de la DGQT est à taille humaine, localisée à St Cloud et Mérignac.Elle...
-
Référent Technique Systèmes
il y a 4 jours
Saint-Cloud, Île-de-France Amzc consulting Temps pleindu posteDans le cadre de notre croissance, nous recherchons un(e) Référent Technique Systèmes & Virtualisation pour renforcer notre équipe technique.Vous interviendrez sur des environnements à forte valeur ajoutée mêlant virtualisation, cloud privé et cloud public, au sein d'une structure à taille humaine.Vos missionsAssurer le RUN et l'exploitation...
-
Ingénieur Pôle Modélisation du soutien militaire F/H
il y a 1 semaine
Saint-Cloud, Île-de-France AEROCONTACT Temps pleinAu sein de la Direction Générale du Soutien Militaire, le département Ingénierie des Services réalise des missions dédiées, dans leur majorité, à l'ingénierie des pièces de rechanges (Maîtrise du référentiel technique rechanges et ingrédients, analyse du retour d'expérience, prévisions en besoin de rechanges du Client).Au sein de ce...
-
Ingénieur Intégration Système Télécom
il y a 2 semaines
Saint-Denis, Île-de-France SNCF Réseau Temps pleinIngénieur Intégration Système TélécomAu sein de la Direction Télécoms, vous intervenez sur des projets ferroviaires structurants, principalement en phase de développement du système ferroviaire.Le poste est fortement orienté intégration système, avec une implication particulière sur les solutions ERTMS, nécessitant une coordination étroite...
-
Ingénieur Systèmes
il y a 2 jours
Saint-Nazaire, Pays de la Loire, France SYD GROUPE Temps pleinÀ propos du groupe SYDNous intervenons autour de 6 domaines d'expertise : intégration de solutions métiers, Conseil & Pilotage, Développement web & mobile, Data & IA, Infrastructure, Cloud & Cyber, RSE & Numérique Responsable.Chez SYD, les relations humaines sont guidées par trois valeurs essentielles qui façonnent notre façon de vivre et de...