Enhancing Visual Reasoning in Vision-language

il y a 6 jours


Palaiseau, France CEA Temps plein

Description du poste

**Domaine**:

- Mathématiques, information scientifique, logiciel

**Contrat**:

- Stage

**Intitulé de l'offre**:

- Enhancing Visual Reasoning in Vision-Language Models (VLMs) through Dynamic Visual Feature Selection H/F

**Sujet de stage**:

- Generative Vision Language Models (VLMs) are designed to integrate text generation with visual contexts, but their performance in tasks requiring complex visual reasoning remains under scrutiny. This internship will focus on enhancing VLMs by using Chain-of-Thought (CoT) reasoning to optimize visual feature selection for text generation.

**Durée du contrat (en mois)**:

- 6

**Description de l'offre**:

- Generative Vision Language Models (VLMs) combine the understanding and generation of text in visual contexts. These models have demonstrated impressive performance on real-world visual question answering (VQA) benchmarks, suggesting their visual reasoning abilities. However, these benchmarks often mix pure visual reasoning tasks with tests of world knowledge, and typically involve questions requiring only a limited number of reasoning steps [2]. As a result, it is unclear whether a VLM's apparent success in visual reasoning tasks is truly due to its reasoning capabilities or simply leveraging its extensive world knowledge. Moreover, VLMs often struggle with fine-grained scene understanding and spatial reasoning, largely due to inefficient use of visual features [5].

This internship aims to tackle these limitations by developing a novel approach for VLMs, particularly those trained through instruction learning methods like LLAVA [1]. This architecture involves converting visual features, from a Visual Transformer model [3], into text embedding space before feeding them to a large language model (LLM) for text generation.- We propose leveraging the Chain-of-Thought (CoT) technique [4] to iteratively select the most relevant visual features during the text generation process. CoT involves generating step-by-step reasoning to break down complex tasks into simpler logical steps, which enhances model performance on tasks requiring complex reasoning. In our approach, we will begin by linking the reasoning steps in a textual chain to specific visual features within the image to provide a visual justification for each step. Afterward, the model will learn to directly select and process relevant visual features without relying on explicit textual reasoning steps, allowing for a more intuitive and efficient understanding of the visual context.- [1] Liu, H., Li, C., Wu, Q., & Lee, Y.J. (2023). Visual Instruction Tuning. ArXiv, abs/2304.08485
[2] Zhang, Y., Bai, H., Zhang, R., Gu, J., Zhai, S., Susskind, J., & Jaitly, N. (2024). How far are we from intelligent visual deductive reasoning? In COLM
[3] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ArXiv, abs/2010.11929
[4] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E.H., Xia, F., Le, Q., & Zhou, D. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. ArXiv, abs/2201.11903
[5] Zhang, J., Hu, J., Khayatkhoei, M., Ilievski, F., & Sun, M. (2024). Exploring Perceptual Limitation of Multimodal Large Language Models. ArXiv, abs/2402.07384- Students in their 5th year of studies (M2 or gap year)
Computer vision skills
- Machine learning skills (deep learning, perception models, generative AI )
- Python proficiency in a deep learning framework (especially TensorFlow or PyTorch)
- Scientific research experience will be appreciated

In line with CEA's commitment to integrating people with disabilities, this job is open to all.Localisation du poste

**Site**:

- Saclay

**Localisation du poste**:

- France, Ile-de-France, Essonne (91)

**Ville**:

- Palaiseau

**Diplôme préparé**:

- Bac+5 - Master 2

**Possibilité de poursuite en thèse**:

- Oui

Informations générales

**Entité de rattachement**:
Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.

Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.

Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.

Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales:

- La conscience des responsabilités



  • Palaiseau, France CEA Temps plein

    Description du poste **Domaine**: - Sciences pour l'ingénieur **Contrat**: - Stage **Intitulé de l'offre**: - STAGE - Spatio-temporally controlled visual content generation H/F **Sujet de stage**: - The visual representation of concepts (e.g objects) varies in space and time. For instance, new car models appear, and the same brands and models are...


  • Palaiseau, France École nationale supérieure de techniques avancées Temps plein

    Topic description Alors que les avancées des modeles vision langage impactent la robotique car ils sont exploités pour la planification des taches compositionnelles, ils butent contre le manque d'incarnation des actions physiques des LLMs et de leur mauvais capacité pour la planification long-terme afin d'accomplir des taches compositionnelles. Une autre...


  • Palaiseau, France CEA Temps plein

    Description du poste **Domaine**: - Sciences pour l'ingénieur **Contrat**: - Stage **Intitulé de l'offre**: - Stage - Etude de l'embarquabilité des réseaux Perceiver IO et Hierarchical Reasoning Model H/F **Sujet de stage**: - Dans un contexte en constante évolution vous travaillerez sur l'étude de l'embarquabilité des réseaux de neurones...


  • Palaiseau, France CEA Temps plein

    Stage - Etude de l'embarquabilité des réseaux Perceiver IO et Hierarchical Reasoning Model H/F Référence 2025-37238 Description de l'unité Le Commissariat à l’Énergie Atomique et aux Énergies Alternatives (CEA) intervient dans trois grands domaines : l'énergie, les technologies pour l'information et la santé et la défense. Situé en...


  • Palaiseau, Île-de-France CEA Temps plein

    Informations générales Entité de rattachement Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un...


  • Palaiseau, France IRT SystemX Temps plein

    **Contexte du stage**: Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs...


  • Palaiseau, France CEA Temps plein

    Description du poste **Domaine**: - Sciences pour l'ingénieur **Contrat**: - Stage **Intitulé de l'offre**: - Exploitation d'un grand modèle de langage et d'une reconstruction 3D neurale sémantique pour la navi H/F **Sujet de stage**: - Dans le cadre de ce stage, nous proposons d'étudier le domaine du Vision-Language Navigation [1,2,3], domaine...


  • Palaiseau, France CEA Temps plein

    Description du poste **Domaine**: - Mathématiques, information scientifique, logiciel **Contrat**: - Stage **Intitulé de l'offre**: - Motion Guided Object Discovery H/F **Sujet de stage**: **Durée du contrat (en mois)**: - 6 **Description de l'offre**: - In this internship, we propose to improve actual object discovery methods leveraging...


  • Palaiseau, France LMD Sorbonne Université Ecole Polytechnique Temps plein

    The apprentice will work on a project dedicated to the creation of a database of clouds rendered by several space lidars. Clouds play a crucial role in the Earth's energy balance, but their feedback is still uncertain. In-depth knowledge of clouds, including their coverage, vertical distribution and optical properties, is needed to understand and predict...


  • Palaiseau, France CEA Temps plein

    Position description **Category**: - Mathematics, information, scientific, software **Contract**: - Internship **Job title**: - Improving the Effectiveness of LLM-Assisted ISS Generation from Design Specification H/F **Subject**: - The internship aims to enhance the performance of large language models (LLMs) in generating Instruction Set Simulator...