Data Engineer Spark/scala
il y a 5 jours
**Conception et développement de pipelines de données**:
Concevoir et développer des pipelines de données robustes et évolutifs utilisant Apache Spark et d?autres outils Big Data.
Intégrer et transformer des données en temps réel ou en batch à partir de sources variées (bases de données, APIs, fichiers plats, etc.).
Implémenter des solutions de traitement de données massives, principalement avec Spark (Scala et Python).
**Optimisation et maintenance**:
Assurer l'optimisation des performances des pipelines de données (gestion des ressources Spark, optimisation des requêtes, réduction des latences, etc.).
Maintenir et améliorer la fiabilité des processus de traitement de données et des infrastructures associées.
**Automatisation des processus**:
Mettre en place et gérer des workflows d?automatisation des tâches avec Apache Airflow.
Automatiser le déploiement et l'exécution des pipelines de données à l'aide de Jenkins.
Collaboration avec les équipes de data science et d?infrastructure:
Collaborer avec les data scientists pour comprendre les besoins en données et optimiser leur accès.
Travailler étroitement avec les équipes d?infrastructure pour assurer la stabilité et la scalabilité des pipelines de données.
**Veille technologique**:
Se tenir informé des évolutions des technologies Big Data et des bonnes pratiques pour intégrer de nouvelles fonctionnalités dans les pipelines.
**Langages de programmation**:
**Scala et Python**: Expérience confirmée dans la programmation de pipelines de données en Scala (pour Spark) et en Python.
**Technologies Big Data**:
**Apache Spark**: Maîtrise de Spark pour le traitement de données massives, avec une compréhension approfondie de ses API en Scala et Python.
**Apache Airflow**: Expérience avec la gestion et l'orchestration de workflows de données dans un environnement de production.
**Outils de CI/CD**:
**Jenkins**: Expérience avec Jenkins pour l?automatisation des déploiements et des tests des pipelines de données.
**Bases de données et gestion des données**:
Connaissances solides des bases de données relationnelles (SQL, PostgreSQL, etc.) et NoSQL (Cassandra, MongoDB, etc.).
**Conception et développement de pipelines de données**:
Concevoir et développer des pipelines de données robustes et évolutifs utilisant Apache Spark et d?autres outils Big Data.
Intégrer et transformer des données en temps réel ou en batch à partir de sources variées (bases de données, APIs, fichiers plats, etc.).
Implémenter des solutions de traitement de données massives, principalement avec Spark (Scala et Python).
**Optimisation et maintenance**:
Assurer l'optimisation des performances des pipelines de données (gestion des ressources Spark, optimisation des requêtes, réduction des latences, etc.).
Maintenir et améliorer la fiabilité des processus de traitement de données et des infrastructures associées.
**Automatisation des processus**:
Mettre en place et gérer des workflows d?automatisation des tâches avec Apache Airflow.
Automatiser le déploiement et l'exécution des pipelines de données à l'aide de Jenkins.
Collaboration avec les équipes de data science et d?infrastructure:
Collaborer avec les data scientists pour comprendre les besoins en données et optimiser leur accès.
Travailler étroitement avec les équipes d?infrastructure pour assurer la stabilité et la scalabilité des pipelines de données.
**Veille technologique**:
Se tenir informé des évolutions des technologies Big Data et des bonnes pratiques pour intégrer de nouvelles fonctionnalités dans les pipelines.
**Langages de programmation**:
**Scala et Python**: Expérience confirmée dans la programmation de pipelines de données en Scala (pour Spark) et en Python.
**Technologies Big Data**:
**Apache Spark**: Maîtrise de Spark pour le traitement de données massives, avec une compréhension approfondie de ses API en Scala et Python.
**Apache Airflow**: Expérience avec la gestion et l'orchestration de workflows de données dans un environnement de production.
**Outils de CI/CD**:
**Jenkins**: Expérience avec Jenkins pour l?automatisation des déploiements et des tests des pipelines de données.
**Bases de données et gestion des données**:
Connaissances solides des bases de données relationnelles (SQL, PostgreSQL, etc.) et NoSQL (Cassandra, MongoDB, etc.).
-
Data Engineer Spark/ Scala
il y a 4 jours
Paris, France Datapy Group Temps pleinVous travaillerez en tant que data engineer sur l?environnement technique suivant: - Spark - Scala Les plus : Kafka, avoir travaillé dans un environnement cloud Vous vous différencierez également par vos qualités humaines, votre savoir-être Le processus de sélection comprend un entretien avec un responsable Datapy, un entretien avec notre client...
-
DATA ENGINEER Scala, Spark, AWS
il y a 2 jours
Paris, Île-de-France emagine Temps pleinIntroductionemagine recherche un Data engineer pour l'un de ces clients finaux dont le rôle sera de concevoir et implémenter des pipelines d'ingestion de données tout en garantissant la performance et la scalabilité des processus de données.Durée : 36 mois maximumPrestation en freelance à temps plein en mode hybride (2 jours par...
-
Lead Data Engineer
il y a 2 semaines
Paris, France Capgemini Temps pleinChoisir Capgemini, c'est choisir une entreprise où vous serez en mesure de façonner votre carrière selon vos aspirations. Avec le soutien et l'inspiration d'une communauté d'experts dans le monde entier, vous pourrez réécrire votre futur. Rejoignez-nous pour redéfinir les limites de ce qui est possible, contribuer à libérer la valeur de la...
-
Data Engineer
il y a 4 jours
Paris, France NEXORIS Temps pleinNotre client bancaire recherche un consultant Data engineer - GCP BigQuery Spark Scala (H/F) pour renforcer l'équipe au sein de laquelle preste déjà un consultant de NEXORIS. Récupérer, traiter et mettre à disposition des agrégats de données via un datalake en utilisant des technologies et pratiques modernes de gestion de données. Tâches et...
-
Lead Data Engineer
il y a 2 semaines
Greater Paris Metropolitan Region, France Capgemini Temps pleinChoisir Capgemini, c'est choisir une entreprise où vous serez en mesure de façonner votre carrière selon vos aspirations. Avec le soutien et l'inspiration d'une communauté d’experts dans le monde entier, vous pourrez réécrire votre futur. Rejoignez-nous pour redéfinir les limites de ce qui est possible, contribuer à libérer la valeur de la...
-
Data Engineer Spark Scala
il y a 2 semaines
Paris, France Digistrat consulting Temps plein**Dans ce cadre, la mission consiste à contribuer à/au(x)**: L?architecture avec le reste de l?entité (tech lead, devs, architecture). Mise en ?uvre/Développement des propositions techniques. Revue de code. Suivi des méthodologies agiles. L'industrialisation des développements et des tests sur de l'open source Environnement anglophone. **Les...
-
data engineer spark
il y a 3 heures
Paris, Île-de-France UCASE CONSULTING Temps pleinBonjour ?,Pour le compte de notre client, nous recherchons un data engineer Spark / Scala / Pyspark / Databricks / Azure.Missions principales :Participer au développement des User Stories (US) et réalisation des tests associés.Produire et maintenir la documentation projet : mapping des données, modélisation des pipelines, documents d?exploitation.Mettre...
-
Data Engineer Spark Scala Kafka- Monitoring Datalake Finance
il y a 1 semaine
Paris, France VISIAN Temps pleinContexte & Objectifs Au sein du service Gouvernance, Administration et Monitoring de la DSI Finance, la mission vise à développer et optimiser une brique applicative de monitoring des flux et traitements de données, en lien avec le programme GASPARD. L?objectif est d?assurer la qualité de service et le respect des délais de mise à disposition des...
-
Data Engineer Spark Scala
il y a 2 heures
Paris, France TRSB Temps pleindoter les Filières et Pôle du groupe de solutions informatiques performantes et innovantes. Comme éditeur et fournisseur de solutions, le Business Solution Center accompagne aussi les grands projets Groupe et la transformation de la Filière. La prestation se déroulera chez le client, entité en charge du SI Risque dans un environnement Agile. Le...
-
Data Engineering
il y a 2 jours
Paris, France Digistrat consulting Temps plein? Contexte /Objectifs: L'entité a pour charge la maintenance, le support et l'évolution de l'outil concernant le pilotage financier de la banque, des directions centrales et de la facturation interne du groupe. Les outils sont basés sur les technologies Big Data pour le stockage, Talend et Spark/Scala pour les traitements, la suite MSBI SQL Server et...