Ingénieur - Développeur Senior Web Scraping

il y a 2 semaines


Télétravail, France NewsCore Temps plein

À propos de NewsCore

NewsCore est une plateforme d'intelligence économique native IA qui aide les grandes entreprises à surveiller, collecter et analyser en temps réel les informations stratégiques disponibles sur le web. Nous permettons aux entreprises du Fortune 500, aux grands acteurs industriels et aux institutions publiques de détecter automatiquement les risques émergents, les mouvements de la concurrence, les signaux réglementaires et les tendances du marché. Nous développons la prochaine génération de systèmes de surveillance automatisés, alimentés par une IA avancée, un crawling à grande échelle et des technologies de recherche d'informations.

Vos responsabilités

Nous recherchons un expert en scraping pour renforcer notre pile d'ingestion et de crawling. Vous concevrez des pipelines résilients capables de récupérer des millions de documents par jour sur :

  • les sites web, les réseaux sociaux, les portails institutionnels, les sites web d'entreprises et les sources industrielles.
  • Vous travaillerez en étroite collaboration avec notre directeur technique et nos équipes techniques.

Vos missions

Architecture de scraping à grande échelle

  • Construire et maintenir des pipelines de scraping à haut volume capables d'ingérer plus de 5 millions d'articles par jour.
  • Assurer la résilience, les réessais, la concurrence, la rotation des proxys, la limitation et le contournement des anti-bots.
  • Maintenir une couverture robuste des sources et maximiser le taux de rappel.

Extraction d'informations et de médias

  • Extraire des sites d'actualités, des portails de presse, des pages industrielles et des données commerciales structurées.
  • Extraire proprement le contenu HTML (date de publication, contenu de l'article, titre, auteurs, métadonnées, etc.)

Extraction des réseaux sociaux

  • Étendre et améliorer notre pile pour : X, Telegram, WhatsApp, Instagram, Tiktok.
  • Gérer les sessions, les cookies, le scraping mobile et les contraintes API.

Intégration backend

  • Intégrer les systèmes de crawling avec : backend Django/Fast API, Celery workers, tâches en arrière-plan, mise en cache Redis, API d'ingestion internes.
  • Conserver le contenu structuré dans notre base de données avec des couches d'indexation, de versionnage et d'enrichissement.

Qualité et surveillance

  • Détecter les échecs de scraping, les erreurs d'analyse et les incohérences entre les sources.
  • Améliorer en permanence la qualité, la couverture, la fraîcheur et la précision d'extraction du contenu.
  • Créer des métriques internes pour mesurer les performances de scraping à grande échelle

Compétences techniques requises

Solide expérience en scraping (minimum 2 ans)

Expérience avérée en scraping web à grande échelle (plus d'un million de documents par jour)

Expérience avec les frameworks de scraping : lxml , Selenium / Playwright, Requests, BeautifulSoup

Meilleures pratiques en matière de scraping à grande échelle : concurrence, planification des tâches, rotation des proxys, stratégies de mise en cache, gestion des erreurs et règles de contournement

Expérience du scraping des réseaux sociaux : (X, Telegram, WhatsApp, etc.)

Solides connaissances en matière de : tâches en arrière-plan (Celery ou équivalents), intégration Django, analyse et normalisation Python, extraction de contenu HTML, ingestion de bases de données

À l'aise avec : CI/CD, Git, code axé sur la qualité (tests, documentation)

Compétences supplémentaires (un plus)

  • Techniques anti-bot de scraping (captcha, détournement de session, émulation mobile/appareil, etc.)
  • Tests de performance et benchmarking
  • Connaissance du NLP, des embeddings, des pipelines de recherche, de la recherche d'informations

Compétences relationnelles

  • Fort esprit d'initiative
  • Autonome et proactif
  • Capacité d'apprentissage rapide, adaptabilité à des environnements en constante évolution
  • Maîtrise de l'anglais (écrit et parlé)

Pourquoi nous rejoindre ?

  • Start-up de pointe dans le domaine de l'IA, bâtissant l'avenir de l'intelligence économique utilisée par les leaders mondiaux.
  • Travail à fort impact sur les systèmes centraux qui alimentent la collecte de données à grande échelle et les analyses stratégiques.
  • Possibilités d'appropriation, y compris des participations potentielles et des incitations à long terme en fonction du profil.
  • Culture d'ingénierie d'élite, collaboration avec des ingénieurs de haut niveau, des experts en IA et en données.

Processus de recrutement

Nous proposons 3 étapes sur deux semaines :

  • (Pré-qualification par l'un de nos associés)
  • Entretien téléphonique de 30 minutes avec notre CTO pour comprendre vos objectifs et votre situation.
  • Entretien test de 2 heures avec notre CTO pour évaluer vos compétences techniques.
  • Entretien culture-fit de 45 minutes avec notre CEO pour évaluer vos attentes et votre intégration dans l'équipe.

Type d'emploi : Temps plein, CDI

Rémunération : 45 000,00€ à 60 000,00€ par an

Avantages :

  • Flextime
  • Intéressement et participation

Lieu du poste : Télétravail



  • Télétravail, France IGOSEO Temps plein

    Stage – Développeur(se) Web WordPressTu souhaites relever un nouveau défi et mettre tes compétences techniques au service de projets innovants ?Tu as envie d'évoluer dans une équipe qui te fait confiance et où ton travail a un impact réel ?Rejoins IGOSEO et participe à une aventure stimulante dans un environnement jeune, dynamique et...


  • Télétravail, France Coinaute Temps plein

    Stage – Développeur(se) WordPress (H/F)Tu souhaites relever de nouveaux défis techniques et développer tes compétences dans un environnement innovant ?Tu veux participer à des projets concrets au sein d'un écosystème tourné vers la blockchain et le Web3 ?Rejoins Coinaute Contribue au développement de projets digitaux ambitieux aux côtés d'une...


  • Télétravail, France Détours en Cinécourt Temps plein

    Stage 2 mois – Full Remote - Non rémunéréSuivi hebdomadaire + 1 réunion plénière mensuelle (obligatoire)Objectifs du stageNotre association Détours en Cinécourt œuvre depuis plus de 30 ans dans la diffusion de courts-métrages sur l'agglomération toulousaine. Elle organise chaque année un festival annuel de diffusion d'une semaine, ainsi que des...


  • Télétravail, France Art Graphics Temps plein

    Bonjour Je suis Jelisavka Bojovic, graphiste, développeuse web et traductrice assermentée (serbo-croate/français).Je propose mes services aux entreprises et institutions pour :Création de sites web (WordPress, HTML/CSS, SEO, accessibilité RGAA) ;Design graphique (identité visuelle, affiches, brochures, supports digitaux) ;Traduction et interprétation...

  • Senior Lead Technique et

    il y a 2 semaines


    Télétravail, France Collective Temps plein

    Senior Lead Technique / Descriptif du posteLead the development, optimization, and maintenance of our applications (performance, structure, reusable components, plugins).Design and implement custom integrations across our ecosystem (Shopify, CRM/ERP, payment gateways, etc.).Participate in the migration strategy from Bubble toward a hybrid or full-code stack...


  • Télétravail, France Association Des Experts en Sécurité et Sûreté Temps plein

    Mission en distancielL'Association ADESS recherche une personne souhaitant s'engager bénévolement pour contribuer à la refonte de son site web. Vous rejoindrez une petite équipe de bénévoles déjà en place (chef de projet, développeur, référenceur).Votre rôleParticiper à l'amélioration de l'UX/UI du siteCréer ou mettre à jour des maquettes...


  • Télétravail, France Collective Temps plein

    Hello Nous c'est WEKEY  Nous ne sommes ni une ESN ni un cabinet de recrutement. Aaah mais qui sommes-nous alors ?Pour tout savoir sur nous et votre future mission c'est par ici Vous êtes Développeur PL/SQL Senior H/F et vous recherchez une mission en freelance ? Nous avons le projet qu'il vous faut pour l'un de nos clients basés à Niort dans le...

  • Stage - Développeur FullStack

    il y a 2 semaines


    Télétravail, France Layerdev Temps plein

    Stage - Développeur FullStackÀ pourvoir dès février/mars et pour une durée de 4 à 6 mois.**À propos du stage et de l'entrepriseAfin de renforcer les équipes techniques, nous sommes à la recherche d'un développeur web.Depuis plusieurs années, Layerdev est spécialiste de la conception et gestion de projets informatiques pour l'ensemble des...

  • Développeur Windev H/F

    il y a 2 semaines


    Télétravail, France Clicconcept Temps plein

    Dans le cadre de notre développement nous recherchons un(e) : Développeur Full StackUne expérience sur les AGL PC-Soft Windev, Webdev ou Windev Mobile serait un plus.En tant que membre de l'équipe de développement, votre mission consistera à développer des applications web, mobiles et Windows sur-mesure de A à Z.Le postePiloter et développer la...


  • Télétravail, France Association Des Experts en Sécurité et Sûreté Temps plein

    Mission en distancielL'Association ADESS travaille sur la refonte de son site web et souhaite accueillir une personne ayant de l'intérêt ou de l'expérience en développement Symfony pour contribuer bénévolement au projet.Vous rejoindrez une petite équipe de bénévoles (chef de projet, développeurs, designer, référenceur).Votre rôleSelon vos...