Architecte Réseau – Usine à GPU – AI Factory

il y a 3 semaines


Paris, Île-de-France Ples Convergence Temps plein

Notre client est un acteur Cloud, opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.

Nous recherchons un Architecte Réseau. Vous êtes en charge de l'architecture, de l'optimisation et de l'évolution des infrastructures réseaux, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference).
L'environnement est international, hautement distribué (Europe, Amérique du Nord, Asie) et orienté performance extrême, faible latence et scalabilité horizontale.

Architecture & design de la GPU Fabric :
– Concevoir et faire évoluer des architectures réseau haut débit, faible latence, adaptées aux NVL72 et aux workloads IA massivement parallèles
– Définir les topologies réseau (leaf-spine, fat-tree, dragonfly le cas échéant) pour :
o Interconnexion intra-NVL72
o Scale-out multi-racks / multi-clusters
– Sélectionner et valider les technologies :
o InfiniBand HDR / NDR
o Ethernet Spectrum / RoCEv2
o Dimensionner les fabrics pour des usages IA à très grande échelle (NCCL-heavy,
all-reduce intensif)

Performance, RDMA & communications GPU :
– Piloter le développement, l'optimisation et le tuning des communications RDMA
– Piles RDMA : libibverbs, rdma-core, NVPeerMemory
– Optimisations GPUDirect / GPUDirect-RDMA
– Garantir des transferts GPU GPU et GPU NIC à très haute performance, sans
surcharge CPU
– Optimiser les communications collectives :
o NCCL
o MPI / CUDA-aware MPI
o Identifier et lever les goulots d'étranglement réseau, mémoire et CPU/GPU

Intégration Kubernetes & workloads IA :
– Concevoir l'intégration réseau de clusters GPU dans des environnements Kubernetes
– Gérer l'exposition et l'isolation des interfaces RDMA :
o Device Plugin NVIDIA
o Network Operator / CNI avancés
– Garantir le bon fonctionnement des workloads conteneurisés IA :
o Training distribué
o Jobs MPI / NCCL
o Pipelines data → GPU
Exploitation, observabilité & troubleshooting
– Mettre en place et exploiter des solutions de monitoring avancé :
– Latence, bande passante, congestion, erreurs
– Outils : Prometheus, Grafana, NetQ, UFM (ou équivalents)
– Analyser les performances réseau et GPU fabric en production
– Proposer et implémenter :
o Ajustements MTU
o Affinités CPU/GPU
o Tuning NIC, switch et firmware
– Assurer le support niveau 2 / 3 sur incidents critiques
Documentation
– Rédaction de procédures, schémas d'infrastructure
– Mise à jour du wiki Confluence et du CMDB (NetBox)
Veille technologique
– Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes
– Proofofconcept sur les nouvelles générations de NIC (RoCE v2, InfiniBand
Enhanced Speed)


  • Lead GPU Engineer

    il y a 3 semaines


    Paris, Île-de-France Kog AI Temps plein

    KOG: Kog is a European VC-funded startup and real-time AI frontier lab building the world's fastest AI execution layer. As part of the 2030 French Tech cohort, we are on a mission to redefine the boundaries of artificial intelligence by enabling true real-time interaction at a scale never seen before.While the industry often settles for incremental software...

  • Lead GPU Engineer

    il y a 2 jours


    Paris, Île-de-France Kog AI Temps plein

    KOG: Kog is a European VC-funded startup and real-time AI frontier lab building the world's fastest AI execution layer. As part of the 2030 French Tech cohort, we are on a mission to redefine the boundaries of artificial intelligence by enabling true real-time interaction at a scale never seen before.While the industry often settles for incremental software...


  • Paris, Île-de-France ouicoding Temps plein

    Vous travaillerez dans le cadre du déploiement et de l'exploitation d'une AI Factory à très grande échelle, reposant sur plusieurs clusters. Vous serez en charge de l'architecture, de l'optimisation et de l'évolution des infrastructures réseaux, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference). ...

  • Architecte / Tech Lead IA

    il y a 3 semaines


    Paris, Île-de-France Free-Work Temps plein

    Redlab cherche un Leader technique de l'Usine IA de son clientIl définit l'architecture des solutions IA/ML/LLM, organise les équipes techniques, garantit sécurité, performance et conformité (RGPD, AI Act).Missions clésPiloter les équipes techniques IA (développeurs, data scientists, ingénieurs).Concevoir des architectures scalables (microservices,...


  • Paris, Île-de-France ouicoding Temps plein

    Vous travaillerez dans le cadre du déploiement et de l'exploitation d'une AI Factory à très grande échelle, reposant sur plusieurs clusters. L'AI Factory s'appuie sur des architectures de stockage haute performance capables d'alimenter efficacement des clusters GPU NVL72, avec des exigences fortes en débit, latence et parallélisme I/O. Vous êtes en...

  • Architect solutions

    il y a 3 semaines


    Paris, Île-de-France Free-Work Temps plein

    ARCHITECTE SOLUTIONS (H/F) Localisation et RattachementPoste : Architecte Solutions (H/F)Localisation : Paris, Île de FranceRattachement : Digital Factory INVENTIV IT Le Rôle : Leader de la Transformation Cloud-NativeAu sein de la Digital Factory, vous êtes legarant technique et stratégiquede la cohérence, de la performance et de la sécurité des...

  • Architecte Data Azure

    il y a 3 semaines


    Paris, Île-de-France KLETA Temps plein

    Dans le cadre d?un programme de transformation data, nous recherchons un Architecte Data Azure pour définir et piloter l?évolution des plateformes de données cloud natives sur Microsoft Azure. Vous analyserez les architectures existantes, identifierez les limites techniques et proposerez des trajectoires cibles adaptées aux enjeux métiers, techniques et...


  • Paris, Île-de-France Mobile Tech People Temps plein

    Dans le cadre d'une mission longue pour un acteur de grande envergure, nous recherchons un Architecte Technique Réseaux & Sécurité disposant d'une expertise forte autour des solutions F5. Le rôle s'inscrit dans un environnement structuré, multi-équipes, avec des enjeux de standardisation, de performance et de cycle de vie des solutions réseau et...

  • Architecte Plateforme IA

    il y a 3 semaines


    Paris, Île-de-France L'industrie recrute Temps plein

    SAFIR est le Service Informatique du groupe Farinia, auquel SETFORGE appartient, leader en Europe dans les opérations de transformation des métaux (forge, fonderie, usinage…).Notre mission : être au cœur de la transformation digitale des opérations industrielles et rendre l'Industrie 4.0 accessible à tous. En combinant expertise industrielle et...

  • Architecte Réseau

    il y a 2 jours


    Paris, Île-de-France Algosecure Temps plein

    Vous intégrerez une équipe d'architectes réseau, pour contribuer à des projets d'envergure nationale autour des infrastructures LAN/MAN/WAN et sécurité.Vos principales missions :Réaliser des études d'architecture réseau et sécuritéConcevoir et faire évoluer les architectures LAN, WAN, DatacenterGérer l'infrastructure IP (routage, switching,...