Ingénieur - Développeur Senior Web Scraping

il y a 5 jours


Télétravail, France NewsCore Temps plein

À propos de NewsCore

NewsCore est une plateforme d'intelligence économique native IA qui aide les grandes entreprises à surveiller, collecter et analyser en temps réel les informations stratégiques disponibles sur le web. Nous permettons aux entreprises du Fortune 500, aux grands acteurs industriels et aux institutions publiques de détecter automatiquement les risques émergents, les mouvements de la concurrence, les signaux réglementaires et les tendances du marché. Nous développons la prochaine génération de systèmes de surveillance automatisés, alimentés par une IA avancée, un crawling à grande échelle et des technologies de recherche d'informations.

Vos responsabilités

Nous recherchons un expert en scraping pour renforcer notre pile d'ingestion et de crawling. Vous concevrez des pipelines résilients capables de récupérer des millions de documents par jour sur :

  • les sites web, les réseaux sociaux, les portails institutionnels, les sites web d'entreprises et les sources industrielles.
  • Vous travaillerez en étroite collaboration avec notre directeur technique et nos équipes techniques.

Vos missions

Architecture de scraping à grande échelle

  • Construire et maintenir des pipelines de scraping à haut volume capables d'ingérer plus de 5 millions d'articles par jour.
  • Assurer la résilience, les réessais, la concurrence, la rotation des proxys, la limitation et le contournement des anti-bots.
  • Maintenir une couverture robuste des sources et maximiser le taux de rappel.

Extraction d'informations et de médias

  • Extraire des sites d'actualités, des portails de presse, des pages industrielles et des données commerciales structurées.
  • Extraire proprement le contenu HTML (date de publication, contenu de l'article, titre, auteurs, métadonnées, etc.)

Extraction des réseaux sociaux

  • Étendre et améliorer notre pile pour : X, Telegram, WhatsApp, Instagram, Tiktok.
  • Gérer les sessions, les cookies, le scraping mobile et les contraintes API.

Intégration backend

  • Intégrer les systèmes de crawling avec : backend Django/Fast API, Celery workers, tâches en arrière-plan, mise en cache Redis, API d'ingestion internes.
  • Conserver le contenu structuré dans notre base de données avec des couches d'indexation, de versionnage et d'enrichissement.

Qualité et surveillance

  • Détecter les échecs de scraping, les erreurs d'analyse et les incohérences entre les sources.
  • Améliorer en permanence la qualité, la couverture, la fraîcheur et la précision d'extraction du contenu.
  • Créer des métriques internes pour mesurer les performances de scraping à grande échelle

Compétences techniques requises

Solide expérience en scraping (minimum 2 ans)

Expérience avérée en scraping web à grande échelle (plus d'un million de documents par jour)

Expérience avec les frameworks de scraping : lxml , Selenium / Playwright, Requests, BeautifulSoup

Meilleures pratiques en matière de scraping à grande échelle : concurrence, planification des tâches, rotation des proxys, stratégies de mise en cache, gestion des erreurs et règles de contournement

Expérience du scraping des réseaux sociaux : (X, Telegram, WhatsApp, etc.)

Solides connaissances en matière de : tâches en arrière-plan (Celery ou équivalents), intégration Django, analyse et normalisation Python, extraction de contenu HTML, ingestion de bases de données

À l'aise avec : CI/CD, Git, code axé sur la qualité (tests, documentation)

Compétences supplémentaires (un plus)

  • Techniques anti-bot de scraping (captcha, détournement de session, émulation mobile/appareil, etc.)
  • Tests de performance et benchmarking
  • Connaissance du NLP, des embeddings, des pipelines de recherche, de la recherche d'informations

Compétences relationnelles

  • Fort esprit d'initiative
  • Autonome et proactif
  • Capacité d'apprentissage rapide, adaptabilité à des environnements en constante évolution
  • Maîtrise de l'anglais (écrit et parlé)

Pourquoi nous rejoindre ?

  • Start-up de pointe dans le domaine de l'IA, bâtissant l'avenir de l'intelligence économique utilisée par les leaders mondiaux.
  • Travail à fort impact sur les systèmes centraux qui alimentent la collecte de données à grande échelle et les analyses stratégiques.
  • Possibilités d'appropriation, y compris des participations potentielles et des incitations à long terme en fonction du profil.
  • Culture d'ingénierie d'élite, collaboration avec des ingénieurs de haut niveau, des experts en IA et en données.

Processus de recrutement

Nous proposons 3 étapes sur deux semaines :

  • (Pré-qualification par l'un de nos associés)
  • Entretien téléphonique de 30 minutes avec notre CTO pour comprendre vos objectifs et votre situation.
  • Entretien test de 2 heures avec notre CTO pour évaluer vos compétences techniques.
  • Entretien culture-fit de 45 minutes avec notre CEO pour évaluer vos attentes et votre intégration dans l'équipe.

Type d'emploi : Temps plein, CDI

Rémunération : 45 000,00€ à 60 000,00€ par an

Avantages :

  • Flextime
  • Intéressement et participation

Lieu du poste : Télétravail


  • Développeur Senior Full Stack

    il y a 2 semaines


    Télétravail, France Top-webgroup Temps plein

    L'entreprise :Chez Top-, on ne fait pas que coder, on révolutionne la garde d'enfants et les services à la personne Notre équipe développe des solutions innovantes pour simplifier chaque étape du processus : mise en relation, gestion administrative, calcul de rémunérations…Chaque mois, des millions d'utilisateurs nous font confiance. Rejoindre Top-,...

  • Senior Backend Engineer

    il y a 2 semaines


    Télétravail, France Collective Temps plein

    Nous recherchons un développeur expérimenté pour rejoindre une startup et participer au développement d'applications web et mobiles innovantes en full remote.Ce que vous ferez :Développer et déployer des applications avec React, NestJS, TypeORM et CapacitorApporter des perspectives techniques nouvellesMentorer les membres moins expérimentés et...


  • Télétravail, France ZELEV Temps plein

    Stage Développeur(euse) Full-Stack – Télétravail (H/F)Nous recherchons un(e) stagiaire Développeur(euse) Full-Stack pour accompagner notre équipe dans le développement et l'évolution de notre application web SaaS.Missions :Participation au développement de nouvelles fonctionnalités sur PHP/Laravel/Livewire/Javascript.Amélioration et maintenance...


  • Télétravail, France Collective Temps plein

    Hello Nous c'est WEKEY  Nous ne sommes ni une ESN ni un cabinet de recrutement. Aaah mais qui sommes-nous alors ?Pour tout savoir sur nous et votre future mission c'est par ici Vous êtes Développeur PL/SQL Senior H/F et vous recherchez une mission en freelance ? Nous avons le projet qu'il vous faut pour l'un de nos clients basés à Niort dans le...

  • Stagiaire développeur web H/F

    il y a 2 semaines


    Télétravail, France Rafting64 Temps plein

    Stagiaire Développement Web Joomla H/F – 100% Télétravail (Stage Court Non Rémunéré)Détails du Poste Localisation :100% Télétravail (France ou Europe)Type de Contrat :Stage Conventionné Non RémunéréDurée :4 à 8 semaines maximumDomaine :Développement et intégration JoomlaNotre Projet : Expérience BéarnExpérience Béarn, un acteur majeur...

  • Développeur Windev H/F

    il y a 1 semaine


    Télétravail, France Clicconcept Temps plein

    Dans le cadre de notre développement nous recherchons un(e) : Développeur Full StackUne expérience sur les AGL PC-Soft Windev, Webdev ou Windev Mobile serait un plus.En tant que membre de l'équipe de développement, votre mission consistera à développer des applications web, mobiles et Windows sur-mesure de A à Z.Le postePiloter et développer la...


  • Télétravail, France Xelya Temps plein

    Rejoins Xelya au sein de l'équipe "Transverse" et participe à nos projets de développement de notre module paie * Ton rôle sera de concevoir et de développer nos applications, tout en respectant notre architecture, dans le but de répondre aux besoins de nos clients et ainsi de faire grandir nos produits paies. La séniorité permettra également...

  • Pentester Senior

    il y a 1 semaine


    Télétravail, France NBS System Temps plein

    Rejoins un acteur de la sécurité informatique au sein du Groupe CELESTE.CELESTE est un opérateur dédié aux entreprises, possédant un réseau national de fibre optique de plus de 12 000km et des datacenters en propre certifiés ISO 27001 et HDS.Chez NBS System nous proposons des prestations de services pour nos clients de type Pentest, campagne de...


  • Télétravail, France LLOYD & DAVIS Temps plein

    LLOYD & DAVIS RECHERCHE UN DÉVELOPPEUR IA FREELANCE EXPÉRIMENTÉMission stratégique : Développement d'un agent IA conversationnel pour le recrutement de mandatairesLLOYD & DAVIS, société en forte croissance avec un développement international, recherche un développeur freelance hautement qualifié et passionné pour concevoir et développer un agent...


  • Télétravail, France Azeoo Temps plein

    Alternance – Développeur(se) Mobile Flutter (H/F) – 24 moisTélétravail complet – Démarrage ASAP – AZEOOPrésentation de l'entrepriseAZEOO est une entreprise experte dans les solutions digitales dédiées au fitness. Nous concevons des applications et plateformes destinées aux coachs sportifs, salles de sport et acteurs du bien-être.Description...