Architecte Réseau – Usine à GPU – AI Factory
il y a 3 semaines
Notre client est un acteur Cloud, opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.
Nous recherchons un Architecte Réseau. Vous êtes en charge de l'architecture, de l'optimisation et de l'évolution des infrastructures réseaux, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference).
L'environnement est international, hautement distribué (Europe, Amérique du Nord, Asie) et orienté performance extrême, faible latence et scalabilité horizontale.
Architecture & design de la GPU Fabric :
– Concevoir et faire évoluer des architectures réseau haut débit, faible latence, adaptées aux NVL72 et aux workloads IA massivement parallèles
– Définir les topologies réseau (leaf-spine, fat-tree, dragonfly le cas échéant) pour :
o Interconnexion intra-NVL72
o Scale-out multi-racks / multi-clusters
– Sélectionner et valider les technologies :
o InfiniBand HDR / NDR
o Ethernet Spectrum / RoCEv2
o Dimensionner les fabrics pour des usages IA à très grande échelle (NCCL-heavy,
all-reduce intensif)
Performance, RDMA & communications GPU :
– Piloter le développement, l'optimisation et le tuning des communications RDMA
– Piles RDMA : libibverbs, rdma-core, NVPeerMemory
– Optimisations GPUDirect / GPUDirect-RDMA
– Garantir des transferts GPU GPU et GPU NIC à très haute performance, sans
surcharge CPU
– Optimiser les communications collectives :
o NCCL
o MPI / CUDA-aware MPI
o Identifier et lever les goulots d'étranglement réseau, mémoire et CPU/GPU
Intégration Kubernetes & workloads IA :
– Concevoir l'intégration réseau de clusters GPU dans des environnements Kubernetes
– Gérer l'exposition et l'isolation des interfaces RDMA :
o Device Plugin NVIDIA
o Network Operator / CNI avancés
– Garantir le bon fonctionnement des workloads conteneurisés IA :
o Training distribué
o Jobs MPI / NCCL
o Pipelines data → GPU
Exploitation, observabilité & troubleshooting
– Mettre en place et exploiter des solutions de monitoring avancé :
– Latence, bande passante, congestion, erreurs
– Outils : Prometheus, Grafana, NetQ, UFM (ou équivalents)
– Analyser les performances réseau et GPU fabric en production
– Proposer et implémenter :
o Ajustements MTU
o Affinités CPU/GPU
o Tuning NIC, switch et firmware
– Assurer le support niveau 2 / 3 sur incidents critiques
Documentation
– Rédaction de procédures, schémas d'infrastructure
– Mise à jour du wiki Confluence et du CMDB (NetBox)
Veille technologique
– Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes
– Proofofconcept sur les nouvelles générations de NIC (RoCE v2, InfiniBand
Enhanced Speed)
-
Lead GPU Engineer
il y a 3 semaines
Paris, Île-de-France Kog AI Temps pleinKOG: Kog is a European VC-funded startup and real-time AI frontier lab building the world's fastest AI execution layer. As part of the 2030 French Tech cohort, we are on a mission to redefine the boundaries of artificial intelligence by enabling true real-time interaction at a scale never seen before.While the industry often settles for incremental software...
-
Lead GPU Engineer
il y a 2 jours
Paris, Île-de-France Kog AI Temps pleinKOG: Kog is a European VC-funded startup and real-time AI frontier lab building the world's fastest AI execution layer. As part of the 2030 French Tech cohort, we are on a mission to redefine the boundaries of artificial intelligence by enabling true real-time interaction at a scale never seen before.While the industry often settles for incremental software...
-
Administrateur Systèmes et réseaux H/F
il y a 3 semaines
Paris, Île-de-France ouicoding Temps pleinVous travaillerez dans le cadre du déploiement et de l'exploitation d'une AI Factory à très grande échelle, reposant sur plusieurs clusters. Vous serez en charge de l'architecture, de l'optimisation et de l'évolution des infrastructures réseaux, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference). ...
-
Architecte / Tech Lead IA
il y a 3 semaines
Paris, Île-de-France Free-Work Temps pleinRedlab cherche un Leader technique de l'Usine IA de son clientIl définit l'architecture des solutions IA/ML/LLM, organise les équipes techniques, garantit sécurité, performance et conformité (RGPD, AI Act).Missions clésPiloter les équipes techniques IA (développeurs, data scientists, ingénieurs).Concevoir des architectures scalables (microservices,...
-
Ingénieur Infrastructure IA H/F
il y a 3 semaines
Paris, Île-de-France ouicoding Temps pleinVous travaillerez dans le cadre du déploiement et de l'exploitation d'une AI Factory à très grande échelle, reposant sur plusieurs clusters. L'AI Factory s'appuie sur des architectures de stockage haute performance capables d'alimenter efficacement des clusters GPU NVL72, avec des exigences fortes en débit, latence et parallélisme I/O. Vous êtes en...
-
Architect solutions
il y a 3 semaines
Paris, Île-de-France Free-Work Temps pleinARCHITECTE SOLUTIONS (H/F) Localisation et RattachementPoste : Architecte Solutions (H/F)Localisation : Paris, Île de FranceRattachement : Digital Factory INVENTIV IT Le Rôle : Leader de la Transformation Cloud-NativeAu sein de la Digital Factory, vous êtes legarant technique et stratégiquede la cohérence, de la performance et de la sécurité des...
-
Architecte Data Azure
il y a 3 semaines
Paris, Île-de-France KLETA Temps pleinDans le cadre d?un programme de transformation data, nous recherchons un Architecte Data Azure pour définir et piloter l?évolution des plateformes de données cloud natives sur Microsoft Azure. Vous analyserez les architectures existantes, identifierez les limites techniques et proposerez des trajectoires cibles adaptées aux enjeux métiers, techniques et...
-
Architecte Technique Réseaux
il y a 1 jour
Paris, Île-de-France Mobile Tech People Temps pleinDans le cadre d'une mission longue pour un acteur de grande envergure, nous recherchons un Architecte Technique Réseaux & Sécurité disposant d'une expertise forte autour des solutions F5. Le rôle s'inscrit dans un environnement structuré, multi-équipes, avec des enjeux de standardisation, de performance et de cycle de vie des solutions réseau et...
-
Architecte Plateforme IA
il y a 3 semaines
Paris, Île-de-France L'industrie recrute Temps pleinSAFIR est le Service Informatique du groupe Farinia, auquel SETFORGE appartient, leader en Europe dans les opérations de transformation des métaux (forge, fonderie, usinage…).Notre mission : être au cœur de la transformation digitale des opérations industrielles et rendre l'Industrie 4.0 accessible à tous. En combinant expertise industrielle et...
-
Architecte Réseau
il y a 2 jours
Paris, Île-de-France Algosecure Temps pleinVous intégrerez une équipe d'architectes réseau, pour contribuer à des projets d'envergure nationale autour des infrastructures LAN/MAN/WAN et sécurité.Vos principales missions :Réaliser des études d'architecture réseau et sécuritéConcevoir et faire évoluer les architectures LAN, WAN, DatacenterGérer l'infrastructure IP (routage, switching,...