Doctorant (F/H) Optimisation de L'inférence de L'intelligence Artificielle à Grande échelle Dans Des Environnements Distribués Dans Le Cloud

il y a 7 jours


Talence, France Inria Temps plein

**Type de contrat**: CDD

**Niveau de diplôme exigé**: Bac + 5 ou équivalent

**Fonction**: Doctorant

**Niveau d'expérience souhaité**: Jeune diplômé

**A propos du centre ou de la direction fonctionnelle**:
Le centre Inria de l’université de Bordeaux est un des neuf centres d’Inria en France et compte une vingtaine d’équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au cœur d'un riche écosystème de R&D et d’innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité, acteurs de la recherche et de l’enseignement supérieur, laboratoires d'excellence, institut de recherche technologique

**Contexte et atouts du poste**:
Dans le contexte de l'inférence de l'IA à grande échelle, plusieurs problèmes doivent être résolus:

- Chaque génération de token doit a priori passer par plusieurs unités de traitement graphique (GPUs), chacune stockant différentes parties du modèle. Il y a un problème de partitionnement du modèle [1][2] et aussi un problème associé à la construction de chemins d'inférence pour minimiser la latence (faire des groupes de ressources proches) ;
- La quantité d'inférence requise variera naturellement dans le temps, et l'ensemble des ressources mises à la disposition du calcul variera également. Il existe donc un problème de planification statique (décider quelles ressources sont susceptibles de participer et y stocker les modèles) et un problème dynamique (comment allouer les nouvelles demandes) ;
- En fonction des modèles utilisés, certaines tâches d'inférence sont naturellement placées sur certaines ressources (par exemple, parce que les tokens précédents ont été générés dans cette ressource). En termes de tolérance aux défaillances, le calcul peut facilement être redémarré (en sachant quels tokens ont été générés), mais à un coût élevé. Cela pose des problèmes d'allocation des ressources en fonction des statistiques de disponibilité des ressources.

**Mission confiée**:
L'objectif de cette thèse est de proposer et d'adapter des techniques pour améliorer la latence, le débit ou l'utilisation des ressources de l'inférence IA à grande échelle dans un environnement Cloud entièrement distribué.

Le travail se concentrera sur les modèles complexes (tels que les LLMs) qui nécessitent plusieurs GPU en raison de leurs besoins en mémoire. Ces GPUs constitueront également une plateforme informatique complexe, compte tenu de leur hétérogénéité potentielle, de leur volatilité et de leur répartition géographique dans l'infrastructure du Cloud.

Les techniques d'optimisation proposées se concentreront sur les méthodes d'ordonnancement et d'allocation des ressources afin d'optimiser le temps d'exécution des tâches d'inférence et leur communication.

Un objectif de cette collaboration avec hive est de déployer les modèles optimisés à grande échelle dans des nœuds de calcul:

- du même fournisseur (avec des GPU homogènes de niveau desktop disponibles à proximité les uns des autres) ; et
- de différents membres de la communauté (où la latence de communication entre les fournisseurs doit être prise en compte, et où les modèles de GPU sont plus hétérogènes).

Dans le contexte de ce sujet, nous considérons également qu'il est pertinent de mentionner ses similitudes avec le traitement des flux de données (DSP). Plus précisément, les DSPs sont des modèles représentant le traitement continu des données (apparenté à la génération de tokens), qui passent par divers opérateurs (répliqués si nécessaire) représentés par un DAG. Il existe une littérature abondante sur le placement des opérateurs dans de tels modèles, avec l'optimisation de diverses mesures [3] (latence, débit, communications, mise à l'échelle, tolérance aux pannes, etc.), bien que la plupart d'entre elles concernent le cas de l'exécution dans des nuages [4] (moins de contraintes de ressources et moins d'hétérogénéité).

**Principales activités**:

- Recherche bibliographique (littérature sur l'ordonnancement et l'IA)
- Modélisation de l'inférence en IA (pour son optimisation)
- Conception, programmation et validation d'algorithmes
- Intégration de composants ou de modules logiciels dans des cadres logiciels existants
- Publication des résultats de la recherche dans des articles scientifiques
- Présentation et diffusion des résultats lors de conférences et de workshops

Activités complémentaires:

- Participation aux cours obligatoires de l'école doctorale (EDMI - Université de Bordeaux)
- Participation facultative à l'encadrement des étudiants en stage de master
- Enseignement facultatif à l'université de Bordeaux ou à l'école d'ingénieurs ENSEIRB-MATMECA

**Compétences**:

- Connaissance intermédiaire du calcul à haute performance et de l'informatique en nuage ;
- Connaissance débutante des algorithmes et des problèmes d'optimisation (une connaissance plus approfondie est un atout) ;
- Une bonne connaissance des LLMs sera appréciée ;
- Bon niveau de développe



  • Talence, France Inria Temps plein

    **Type de contrat**: CDD **Niveau de diplôme exigé**: Bac + 5 ou équivalent **Fonction**: Doctorant **Niveau d'expérience souhaité**: Jeune diplômé **A propos du centre ou de la direction fonctionnelle**: Le centre Inria de l’université de Bordeaux est un des neuf centres d’Inria en France et compte une vingtaine d’équipes de recherche. Le...


  • Talence, France Université de Bordeaux Temps plein

    À propos de nous L’université de Bordeaux est une grande université dynamique, responsable, attentive au bien‑être de ses personnels. La rejoindre, c’est travailler dans un cadre privilégié au sein d’une communauté professionnelle particulièrement diverse et ouverte, en bénéficiant de dispositifs d’accueil et d’inclusion, de formation...


  • Talence, France Inria Temps plein

    **Type de contrat**: CDD **Niveau de diplôme exigé**: Bac + 5 ou équivalent **Fonction**: Doctorant **Niveau d'expérience souhaité**: Jeune diplômé **A propos du centre ou de la direction fonctionnelle**: Le centre Inria de l’université de Bordeaux est un des neuf centres d’Inria en France et compte une vingtaine d’équipes de recherche. Le...

  • Post Doctorant

    il y a 3 jours


    Talence, Nouvelle-Aquitaine, France Choisir le Service Public Temps plein

    Informations générales Organisme de rattachement CNRS   Référence UMR5107-SOPHEU0-079   Date de début de diffusion /12/2025 Date de parution /12/2025 Date de fin de diffusion /01/2026 VersantFonction Publique de l'Etat CatégorieCatégorie A (cadre) Nature de l'emploiEmploi ouvert uniquement aux contractuels Domaine / MétierRecherche -...


  • Talence, France Université de Bordeaux Temps plein

    Une université prestigieuse à Talence recherche un Doctorant, spécialisé en modélisation numérique et interaction avec les photocatalyseurs. Ce poste de 36 mois est proposé avec un salaire brut de 2300€ mensuel. Le candidat doit avoir un diplôme en physique ou génie énergétique et de solides compétences en transfert radiatif et imagerie...


  • Talence, France Université de Bordeaux Temps plein

    En particulier, vous rejoindrez l'équipe **Bench to Knowledge and Beyond** du département Systèmes et Données du laboratoire avec des experts en bio-informatique, en modélisation et en visualisation de données ainsi qu'en apprentissage automatique. Les recherches y sont transdisciplinaires et se font en collaboration avec les experts des données...


  • Talence, France UNIVERSITE DE BORDEAUX Temps plein

    La conversion de la lumière en liaisons chimiques est à l'origine de la vie sur Terre grâce à la photosynthèse naturelle. Cependant, le déploiement de systèmes photocatalytiques artificiels fabriqués par l'homme pour parvenir à une synthèse fiable de combustibles solaires (tels que l'H2) a été jusqu'à présent un échec. En effet, les systèmes...


  • Talence, France Inria Temps plein

    **Type de contrat**: CDD **Niveau de diplôme exigé**: Bac + 5 ou équivalent **Fonction**: Doctorant **A propos du centre ou de la direction fonctionnelle**: Le centre Inria de l’université de Bordeaux est un des neuf centres d’Inria en France et compte une vingtaine d’équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le...

  • Post Doctorant

    il y a 6 jours


    Talence, France JobiJoba FR S2 Temps plein

    Participer à des campagnes de recherche internationales, menées dans des grandes installations laser, afin d'étudier la physique des hautes densités d'énergie et l'équation d'état de la matière sous des pressions de plusieurs mégabars, dans le contexte de l'allumage par choc. Participer à des conférences et écoles internationales. Activités...


  • Talence, France Centre Hospitalier Universitaire De Bordeaux Temps plein

    Un établissement de santé de référence en Nouvelle-Aquitaine recherche un expert en intelligence artificielle pour concevoir et maintenir des agents d'IA destinés à améliorer les processus numériques. Vous aurez l'opportunité de travailler dans un contexte innovant et collaboratif, tout en ayant un impact direct sur la qualité des soins médicaux....