Stagiaire Data Engineer

il y a 2 semaines


Paris, Île-de-France CAST Software Temps plein

CAST, a Software Company based in Meudon ,  is the market leader in Software Intelligence.

Working at CAST R&D means being an important part of a highly-talented, fast-paced, multicultural and Agile team . 

Overview

We're building the foundation to ground AI with AAA Software Intelligence — Aggregated,

Accurated, and Augmented — sourced from real-world software and technology projects. This

role goes beyond manual curation: it's about using AI to empower AI. You will leverage LLMs,

embeddings, and NLP tools to clean, enrich, and validate data, enabling AI systems and

autonomous agents to rely on it for training and contextual understanding.

Responsibilities


• Aggregate and structure data from software ecosystems (codebases, APIs, tickets,

documentation, architecture specs).


• Apply LLMs, embeddings, and NLP tools to automate: data cleaning, entity extraction,

metadata tagging, and semantic annotation.


• Build and maintain semantic pipelines for LLM fine-tuning and RAG (Retrieval-Augmented

Generation).


• Organize datasets into formats suitable for Agent-to-Agent (A2A) interactions: APIs, vector

DBs, knowledge graphs, etc.


• Collaborate with AI teams to evolve schemas, prompts, labeling strategies, and evaluation

data.


• Ensure strong data lineage, reproducibility, and version control.

Requirements


• Experience in data engineering, ML data ops, or structured data curation.


• Proficient in Python, with strong data pipeline skills (Pandas, PyArrow, regex, Airflow).


• Experience with LLMs or NLP tools (e.g., Hugging Face, spaCy, LangChain).


• Ability to use AI to clean, enrich, classify, and organize technical content.


• Strong understanding of tokenization, chunking, and model input preparation.


• Experience working with software project data: Git repos, APIs, technical documentation, etc.

Bonus Skills


• Knowledge of vector DBs (FAISS, Qdrant, Weaviate) or knowledge graphs (Neo4j, RDF,

SPARQL).


  • Stagiaire Data Engineer

    il y a 2 semaines


    Paris, Île-de-France SoonGo Temps plein

    Stagiaire Data EngineerDébut :ASAPLieu :Paris 13e - Station FType :Stage - 4 à 6 mois - RémunéréVeuillez envoyer votre CV et votre lettre de motivation directement à : À propos de SoongoSoongo est une startup green tech spécialisée dans les solutions SaaS pour la gestion intelligente des flottes et de la mobilité d'entreprise. Nous développons des...

  • Data Engineer

    il y a 2 semaines


    Paris, Île-de-France MP DATA Temps plein

    En tant que Data Engineer Senior, vous jouerez un rôle clé dans la construction, l'optimisation et la fiabilisation de nos pipelines de données à grande échelle, au cœur de notre plateforme analytique. Votre expertise sur Databricks et l'environnement Spark sera essentielle pour garantir des traitements performants, sécurisés et scalables.Vos...

  • Data Engineer

    il y a 2 semaines


    Paris, Île-de-France MP Data Temps plein

    En tant que Data Engineer Senior, vous jouerez un rôle clé dans la construction, l'optimisation et la fiabilisation de nos pipelines de données à grande échelle, au coeur de notre plateforme analytique. Votre expertise sur Databricks et l'environnement Spark sera essentielle pour garantir des traitements performants, sécurisés et scalables. Vos...

  • Junior Data Engineer

    il y a 2 semaines


    Paris, Île-de-France Data Reply Temps plein

    Junior Data EngineerTasksImplementing new use casesMapping data and data flowsImplementing data analysis and processing pipelinesIndustrializing data flows and their visualization through dashboards and reportingCarrying out unit tests and integration tests    BenefitsStructured career progression – at Reply, we encourage career development and will...

  • Data Engineer Expérimenté

    il y a 2 semaines


    Paris, Île-de-France MP DATA Temps plein

    Nous recherchons un(e)Data Engineer expérimenté(e)pour intervenir sur lamise en production, la fiabilisation et l'évolutiond'une plateforme data moderne basée surAWS, Spark et Dataiku.Vous participerez activement à laconstruction et l'optimisationdes environnements de traitement de données à grande échelle, en lien étroit avec les équipes Data...

  • Graduate Data Engineer

    il y a 2 semaines


    Paris, Île-de-France Data Reply Temps plein

    Graduate Data EngineerTasks• Implementing new use cases• Mapping data and data flows• Implementing data analysis and processing pipelines• Industrializing data flows and their visualization through dashboards and reporting• Carrying out unit tests and integration tests  Benefits• Structured career progression – at Reply, we encourage career...


  • Paris, Île-de-France MP DATA Temps plein

    ESN spécialisée Data & IA pour les environnements industriels. Pour l'un de nos clients, nous recherchons unLLM Engineerchargé d'industrialiser lesPOC GenAIdéveloppés par les équipes Data Science et de déployer des solutions robustes et scalables en production.Développement et Industrialisation des POC LLM / GenAI.Conception et optimisation de...

  • Data Engineer AWS

    il y a 1 jour


    Paris, Île-de-France Data Reply FR Temps plein

    Data Replyest une filiale du groupe Reply offrant une large gamme de services d'analyse avancée et de données alimentées par l'IA.Nous opérons dans différents secteurs et fonctions commerciales, en travaillant directement avec des professionnels de haut niveau et des directeurs généraux pour leur permettre d'obtenir des résultats significatifs grâce...

  • Stagiaire data engineer

    il y a 2 semaines


    Paris, Île-de-France Brut. Temps plein

    Brut. est un média digital international d'actualité, d'enquêtes et de culture qui raconte le monde d'aujourd'hui. Médias d'actualité le plus suivi sur les réseaux sociaux en France et en Europe, Brut. touche chaque mois des millions de personnes et s'impose plus largement comme un média international majeur, présent en Inde et dans de nombreux pays...

  • Stagiaire data engineer

    il y a 2 semaines


    Paris, Île-de-France Brut. France Temps plein

    Brut. est un média digital international d'actualité, d'enquêtes et de culture qui raconte le monde d'aujourd'hui. Médias d'actualité le plus suivi sur les réseaux sociaux en France et en Europe, Brut. touche chaque mois des millions de personnes et s'impose plus largement comme un média international majeur, présent en Inde et dans de nombreux pays...