Ingénieur - Développeur Senior Web Scraping
il y a 5 jours
À propos de NewsCore
NewsCore est une plateforme d'intelligence économique native IA qui aide les grandes entreprises à surveiller, collecter et analyser en temps réel les informations stratégiques disponibles sur le web. Nous permettons aux entreprises du Fortune 500, aux grands acteurs industriels et aux institutions publiques de détecter automatiquement les risques émergents, les mouvements de la concurrence, les signaux réglementaires et les tendances du marché. Nous développons la prochaine génération de systèmes de surveillance automatisés, alimentés par une IA avancée, un crawling à grande échelle et des technologies de recherche d'informations.
Vos responsabilités
Nous recherchons un expert en scraping pour renforcer notre pile d'ingestion et de crawling. Vous concevrez des pipelines résilients capables de récupérer des millions de documents par jour sur :
- les sites web, les réseaux sociaux, les portails institutionnels, les sites web d'entreprises et les sources industrielles.
- Vous travaillerez en étroite collaboration avec notre directeur technique et nos équipes techniques.
Vos missions
Architecture de scraping à grande échelle
- Construire et maintenir des pipelines de scraping à haut volume capables d'ingérer plus de 5 millions d'articles par jour.
- Assurer la résilience, les réessais, la concurrence, la rotation des proxys, la limitation et le contournement des anti-bots.
- Maintenir une couverture robuste des sources et maximiser le taux de rappel.
Extraction d'informations et de médias
- Extraire des sites d'actualités, des portails de presse, des pages industrielles et des données commerciales structurées.
- Extraire proprement le contenu HTML (date de publication, contenu de l'article, titre, auteurs, métadonnées, etc.)
Extraction des réseaux sociaux
- Étendre et améliorer notre pile pour : X, Telegram, WhatsApp, Instagram, Tiktok.
- Gérer les sessions, les cookies, le scraping mobile et les contraintes API.
Intégration backend
- Intégrer les systèmes de crawling avec : backend Django/Fast API, Celery workers, tâches en arrière-plan, mise en cache Redis, API d'ingestion internes.
- Conserver le contenu structuré dans notre base de données avec des couches d'indexation, de versionnage et d'enrichissement.
Qualité et surveillance
- Détecter les échecs de scraping, les erreurs d'analyse et les incohérences entre les sources.
- Améliorer en permanence la qualité, la couverture, la fraîcheur et la précision d'extraction du contenu.
- Créer des métriques internes pour mesurer les performances de scraping à grande échelle
Compétences techniques requises
Solide expérience en scraping (minimum 2 ans)
Expérience avérée en scraping web à grande échelle (plus d'un million de documents par jour)
Expérience avec les frameworks de scraping : lxml , Selenium / Playwright, Requests, BeautifulSoup
Meilleures pratiques en matière de scraping à grande échelle : concurrence, planification des tâches, rotation des proxys, stratégies de mise en cache, gestion des erreurs et règles de contournement
Expérience du scraping des réseaux sociaux : (X, Telegram, WhatsApp, etc.)
Solides connaissances en matière de : tâches en arrière-plan (Celery ou équivalents), intégration Django, analyse et normalisation Python, extraction de contenu HTML, ingestion de bases de données
À l'aise avec : CI/CD, Git, code axé sur la qualité (tests, documentation)
Compétences supplémentaires (un plus)
- Techniques anti-bot de scraping (captcha, détournement de session, émulation mobile/appareil, etc.)
- Tests de performance et benchmarking
- Connaissance du NLP, des embeddings, des pipelines de recherche, de la recherche d'informations
Compétences relationnelles
- Fort esprit d'initiative
- Autonome et proactif
- Capacité d'apprentissage rapide, adaptabilité à des environnements en constante évolution
- Maîtrise de l'anglais (écrit et parlé)
Pourquoi nous rejoindre ?
- Start-up de pointe dans le domaine de l'IA, bâtissant l'avenir de l'intelligence économique utilisée par les leaders mondiaux.
- Travail à fort impact sur les systèmes centraux qui alimentent la collecte de données à grande échelle et les analyses stratégiques.
- Possibilités d'appropriation, y compris des participations potentielles et des incitations à long terme en fonction du profil.
- Culture d'ingénierie d'élite, collaboration avec des ingénieurs de haut niveau, des experts en IA et en données.
Processus de recrutement
Nous proposons 3 étapes sur deux semaines :
- (Pré-qualification par l'un de nos associés)
- Entretien téléphonique de 30 minutes avec notre CTO pour comprendre vos objectifs et votre situation.
- Entretien test de 2 heures avec notre CTO pour évaluer vos compétences techniques.
- Entretien culture-fit de 45 minutes avec notre CEO pour évaluer vos attentes et votre intégration dans l'équipe.
Type d'emploi : Temps plein, CDI
Rémunération : 45 000,00€ à 60 000,00€ par an
Avantages :
- Flextime
- Intéressement et participation
Lieu du poste : Télétravail
-
Développeur Senior Full Stack
il y a 2 semaines
Télétravail, France Top-webgroup Temps pleinL'entreprise :Chez Top-, on ne fait pas que coder, on révolutionne la garde d'enfants et les services à la personne Notre équipe développe des solutions innovantes pour simplifier chaque étape du processus : mise en relation, gestion administrative, calcul de rémunérations…Chaque mois, des millions d'utilisateurs nous font confiance. Rejoindre Top-,...
-
Senior Backend Engineer
il y a 2 semaines
Télétravail, France Collective Temps pleinNous recherchons un développeur expérimenté pour rejoindre une startup et participer au développement d'applications web et mobiles innovantes en full remote.Ce que vous ferez :Développer et déployer des applications avec React, NestJS, TypeORM et CapacitorApporter des perspectives techniques nouvellesMentorer les membres moins expérimentés et...
-
Stage Developpeur Full-Stack
il y a 1 jour
Télétravail, France ZELEV Temps pleinStage Développeur(euse) Full-Stack – Télétravail (H/F)Nous recherchons un(e) stagiaire Développeur(euse) Full-Stack pour accompagner notre équipe dans le développement et l'évolution de notre application web SaaS.Missions :Participation au développement de nouvelles fonctionnalités sur PHP/Laravel/Livewire/Javascript.Amélioration et maintenance...
-
Développeur PL/SQL Senior – Batch Complexes
il y a 6 jours
Télétravail, France Collective Temps pleinHello Nous c'est WEKEY Nous ne sommes ni une ESN ni un cabinet de recrutement. Aaah mais qui sommes-nous alors ?Pour tout savoir sur nous et votre future mission c'est par ici Vous êtes Développeur PL/SQL Senior H/F et vous recherchez une mission en freelance ? Nous avons le projet qu'il vous faut pour l'un de nos clients basés à Niort dans le...
-
Stagiaire développeur web H/F
il y a 2 semaines
Télétravail, France Rafting64 Temps pleinStagiaire Développement Web Joomla H/F – 100% Télétravail (Stage Court Non Rémunéré)Détails du Poste Localisation :100% Télétravail (France ou Europe)Type de Contrat :Stage Conventionné Non RémunéréDurée :4 à 8 semaines maximumDomaine :Développement et intégration JoomlaNotre Projet : Expérience BéarnExpérience Béarn, un acteur majeur...
-
Développeur Windev H/F
il y a 1 semaine
Télétravail, France Clicconcept Temps pleinDans le cadre de notre développement nous recherchons un(e) : Développeur Full StackUne expérience sur les AGL PC-Soft Windev, Webdev ou Windev Mobile serait un plus.En tant que membre de l'équipe de développement, votre mission consistera à développer des applications web, mobiles et Windows sur-mesure de A à Z.Le postePiloter et développer la...
-
Développeur Paie C# .NET confirmé H/F
il y a 2 semaines
Télétravail, France Xelya Temps pleinRejoins Xelya au sein de l'équipe "Transverse" et participe à nos projets de développement de notre module paie * Ton rôle sera de concevoir et de développer nos applications, tout en respectant notre architecture, dans le but de répondre aux besoins de nos clients et ainsi de faire grandir nos produits paies. La séniorité permettra également...
-
Pentester Senior
il y a 1 semaine
Télétravail, France NBS System Temps pleinRejoins un acteur de la sécurité informatique au sein du Groupe CELESTE.CELESTE est un opérateur dédié aux entreprises, possédant un réseau national de fibre optique de plus de 12 000km et des datacenters en propre certifiés ISO 27001 et HDS.Chez NBS System nous proposons des prestations de services pour nos clients de type Pentest, campagne de...
-
Ingénieur IA Conversationnelle Senior
il y a 1 semaine
Télétravail, France LLOYD & DAVIS Temps pleinLLOYD & DAVIS RECHERCHE UN DÉVELOPPEUR IA FREELANCE EXPÉRIMENTÉMission stratégique : Développement d'un agent IA conversationnel pour le recrutement de mandatairesLLOYD & DAVIS, société en forte croissance avec un développement international, recherche un développeur freelance hautement qualifié et passionné pour concevoir et développer un agent...
-
Développeur(se) Mobile Flutter – Alternance
il y a 1 semaine
Télétravail, France Azeoo Temps pleinAlternance – Développeur(se) Mobile Flutter (H/F) – 24 moisTélétravail complet – Démarrage ASAP – AZEOOPrésentation de l'entrepriseAZEOO est une entreprise experte dans les solutions digitales dédiées au fitness. Nous concevons des applications et plateformes destinées aux coachs sportifs, salles de sport et acteurs du bien-être.Description...