Stagiaire Data Engineer

il y a 2 semaines


Paris, Île-de-France CAST Software Temps plein

CAST, a Software Company based in Meudon ,  is the market leader in Software Intelligence.

Working at CAST R&D means being an important part of a highly-talented, fast-paced, multicultural and Agile team . 

Overview

We're building the foundation to ground AI with AAA Software Intelligence — Aggregated,

Accurated, and Augmented — sourced from real-world software and technology projects. This

role goes beyond manual curation: it's about using AI to empower AI. You will leverage LLMs,

embeddings, and NLP tools to clean, enrich, and validate data, enabling AI systems and

autonomous agents to rely on it for training and contextual understanding.

Responsibilities


• Aggregate and structure data from software ecosystems (codebases, APIs, tickets,

documentation, architecture specs).


• Apply LLMs, embeddings, and NLP tools to automate: data cleaning, entity extraction,

metadata tagging, and semantic annotation.


• Build and maintain semantic pipelines for LLM fine-tuning and RAG (Retrieval-Augmented

Generation).


• Organize datasets into formats suitable for Agent-to-Agent (A2A) interactions: APIs, vector

DBs, knowledge graphs, etc.


• Collaborate with AI teams to evolve schemas, prompts, labeling strategies, and evaluation

data.


• Ensure strong data lineage, reproducibility, and version control.

Requirements


• Experience in data engineering, ML data ops, or structured data curation.


• Proficient in Python, with strong data pipeline skills (Pandas, PyArrow, regex, Airflow).


• Experience with LLMs or NLP tools (e.g., Hugging Face, spaCy, LangChain).


• Ability to use AI to clean, enrich, classify, and organize technical content.


• Strong understanding of tokenization, chunking, and model input preparation.


• Experience working with software project data: Git repos, APIs, technical documentation, etc.

Bonus Skills


• Knowledge of vector DBs (FAISS, Qdrant, Weaviate) or knowledge graphs (Neo4j, RDF,

SPARQL).


  • Stagiaire Data Engineer

    il y a 7 jours


    Paris, Île-de-France SoonGo Temps plein

    Stagiaire Data EngineerDébut :ASAPLieu :Paris 13e - Station FType :Stage - 4 à 6 mois - RémunéréVeuillez envoyer votre CV et votre lettre de motivation directement à : À propos de SoongoSoongo est une startup green tech spécialisée dans les solutions SaaS pour la gestion intelligente des flottes et de la mobilité d'entreprise. Nous développons des...

  • Data Engineer On Premise

    il y a 7 jours


    Paris, Île-de-France Craftman data Temps plein

    Localisation : Région parisienne (2 à 3 jours par semaine sur site)Budget indicatif : Niveau seniorDémarrage : Début février 2026Durée : 6 moisProfil recherché : Data Engineer On-Premise expérimentéPrincipales missions :Conception et développement de services orientés dataIntégration de composants techniquesRéalisation de tests, benchmarks et...

  • Senior AWS Data Engineer

    il y a 2 semaines


    Paris, Île-de-France Data Reply Temps plein

    Senior AWS Data EngineerTasksImplement new use cases and data pipelines on AWSMap data and data flows across cloud platformsDevelop and industrialize data pipelines and processing workflowsDesign and build dashboards and reporting toolsPerform unit and integration testing of data flowsParticipate in Data Reply events (Reply Xchange, hackathons, AWS summits,...

  • Graduate Data Engineer

    il y a 2 semaines


    Paris, Île-de-France Data Reply Temps plein

    Graduate Data EngineerTasks• Implementing new use cases• Mapping data and data flows• Implementing data analysis and processing pipelines• Industrializing data flows and their visualization through dashboards and reporting• Carrying out unit tests and integration tests  Benefits• Structured career progression – at Reply, we encourage career...


  • Paris, Île-de-France MP DATA Temps plein

    ESN spécialisée Data & IA pour les environnements industriels. Pour l'un de nos clients, nous recherchons unLLM Engineerchargé d'industrialiser lesPOC GenAIdéveloppés par les équipes Data Science et de déployer des solutions robustes et scalables en production.Développement et Industrialisation des POC LLM / GenAI.Conception et optimisation de...

  • Data Engineer Tech Lead

    il y a 2 semaines


    Paris, Île-de-France Craftman data Temps plein

    Informations principales :Secteur : AssuranceLocalisation : Paris (3 jours par semaine sur site)Date de démarrage : Dès que possibleLangue : FrançaisDurée de mission : Jusqu?en février 2028Profil recherché : Data Engineer (Spark / Hadoop)Expérience minimum : 7 ansCompétences techniques indispensables :Solide maîtrise de JavaExcellente maîtrise de...


  • Paris, Île-de-France Craftman data Temps plein

    Nous recherchons une prestation de Data Engineer avec des compétences sur Python/PySpark/Databricks sur un environnement cloud AWS.Le Data Engineer sera responsable de la conception, du développement et de la mise en production de l'architecture de données.Il devra notamment :Collecter les exigences des métiers et des utilisateursConcevoir l'architecture...

  • Data Analyst

    il y a 2 semaines


    Paris, Île-de-France Hanalytics | Modern Data & Marketing Technologies Temps plein

    Contexte et objectif du posteDans le cadre de son développement, Hanalytics recherche un(e) stagiaire de fin d'études pour un poste de Data Analyst / Analytics Engineer afin d'accompagner l'équipe Data sur ses projets clients et internes.Le stage s'adresse à un profil curieux, rigoureux et motivé par la mise en pratique concrète de la data :...

  • Data Engineer

    il y a 4 jours


    Paris, Île-de-France ec-0b91-4fd1-a05e-dc94127b83a9 Temps plein

    En quelques motsCherry Pick est à la recherche d'un Data Engineer / Python / Azure pour l'un de ses clients qui opère dans le secteur de l'énergieDescription? Contexte de missionDans le cadre du renforcement de l?équipe Data, nous recherchons Data Engineer spécialisé en Python, PySpark et Microsoft Fabric, évoluant dans un environnement Azure...

  • Stagiaire Data Engineer

    il y a 1 semaine


    Paris, Île-de-France DELIGHT Temps plein

     Le posteType de contrat: StageDébut du stage: Entre janvier et mars 2026Durée du stage: 6 moisLocalisation: remote et locaux Paris centreRémunération: 1000€ / moisDelight cherche un·eData Engineer, passionné·e par les technologies de la donnée (Data Warehouse) et le milieu du spectacle vivant.Présentation de DelightActeur référent de la data...