Ingénieur - Développeur Senior Web Scraping
il y a 2 semaines
À propos de NewsCore
NewsCore est une plateforme d'intelligence économique native IA qui aide les grandes entreprises à surveiller, collecter et analyser en temps réel les informations stratégiques disponibles sur le web. Nous permettons aux entreprises du Fortune 500, aux grands acteurs industriels et aux institutions publiques de détecter automatiquement les risques émergents, les mouvements de la concurrence, les signaux réglementaires et les tendances du marché. Nous développons la prochaine génération de systèmes de surveillance automatisés, alimentés par une IA avancée, un crawling à grande échelle et des technologies de recherche d'informations.
Vos responsabilités
Nous recherchons un expert en scraping pour renforcer notre pile d'ingestion et de crawling. Vous concevrez des pipelines résilients capables de récupérer des millions de documents par jour sur :
- les sites web, les réseaux sociaux, les portails institutionnels, les sites web d'entreprises et les sources industrielles.
- Vous travaillerez en étroite collaboration avec notre directeur technique et nos équipes techniques.
Vos missions
Architecture de scraping à grande échelle
- Construire et maintenir des pipelines de scraping à haut volume capables d'ingérer plus de 5 millions d'articles par jour.
- Assurer la résilience, les réessais, la concurrence, la rotation des proxys, la limitation et le contournement des anti-bots.
- Maintenir une couverture robuste des sources et maximiser le taux de rappel.
Extraction d'informations et de médias
- Extraire des sites d'actualités, des portails de presse, des pages industrielles et des données commerciales structurées.
- Extraire proprement le contenu HTML (date de publication, contenu de l'article, titre, auteurs, métadonnées, etc.)
Extraction des réseaux sociaux
- Étendre et améliorer notre pile pour : X, Telegram, WhatsApp, Instagram, Tiktok.
- Gérer les sessions, les cookies, le scraping mobile et les contraintes API.
Intégration backend
- Intégrer les systèmes de crawling avec : backend Django/Fast API, Celery workers, tâches en arrière-plan, mise en cache Redis, API d'ingestion internes.
- Conserver le contenu structuré dans notre base de données avec des couches d'indexation, de versionnage et d'enrichissement.
Qualité et surveillance
- Détecter les échecs de scraping, les erreurs d'analyse et les incohérences entre les sources.
- Améliorer en permanence la qualité, la couverture, la fraîcheur et la précision d'extraction du contenu.
- Créer des métriques internes pour mesurer les performances de scraping à grande échelle
Compétences techniques requises
Solide expérience en scraping (minimum 2 ans)
Expérience avérée en scraping web à grande échelle (plus d'un million de documents par jour)
Expérience avec les frameworks de scraping : lxml , Selenium / Playwright, Requests, BeautifulSoup
Meilleures pratiques en matière de scraping à grande échelle : concurrence, planification des tâches, rotation des proxys, stratégies de mise en cache, gestion des erreurs et règles de contournement
Expérience du scraping des réseaux sociaux : (X, Telegram, WhatsApp, etc.)
Solides connaissances en matière de : tâches en arrière-plan (Celery ou équivalents), intégration Django, analyse et normalisation Python, extraction de contenu HTML, ingestion de bases de données
À l'aise avec : CI/CD, Git, code axé sur la qualité (tests, documentation)
Compétences supplémentaires (un plus)
- Techniques anti-bot de scraping (captcha, détournement de session, émulation mobile/appareil, etc.)
- Tests de performance et benchmarking
- Connaissance du NLP, des embeddings, des pipelines de recherche, de la recherche d'informations
Compétences relationnelles
- Fort esprit d'initiative
- Autonome et proactif
- Capacité d'apprentissage rapide, adaptabilité à des environnements en constante évolution
- Maîtrise de l'anglais (écrit et parlé)
Pourquoi nous rejoindre ?
- Start-up de pointe dans le domaine de l'IA, bâtissant l'avenir de l'intelligence économique utilisée par les leaders mondiaux.
- Travail à fort impact sur les systèmes centraux qui alimentent la collecte de données à grande échelle et les analyses stratégiques.
- Possibilités d'appropriation, y compris des participations potentielles et des incitations à long terme en fonction du profil.
- Culture d'ingénierie d'élite, collaboration avec des ingénieurs de haut niveau, des experts en IA et en données.
Processus de recrutement
Nous proposons 3 étapes sur deux semaines :
- (Pré-qualification par l'un de nos associés)
- Entretien téléphonique de 30 minutes avec notre CTO pour comprendre vos objectifs et votre situation.
- Entretien test de 2 heures avec notre CTO pour évaluer vos compétences techniques.
- Entretien culture-fit de 45 minutes avec notre CEO pour évaluer vos attentes et votre intégration dans l'équipe.
Type d'emploi : Temps plein, CDI
Rémunération : 45 000,00€ à 60 000,00€ par an
Avantages :
- Flextime
- Intéressement et participation
Lieu du poste : Télétravail
-
Stage Développeur web Wordpress
il y a 2 semaines
Télétravail, France IGOSEO Temps pleinStage – Développeur(se) Web WordPressTu souhaites relever un nouveau défi et mettre tes compétences techniques au service de projets innovants ?Tu as envie d'évoluer dans une équipe qui te fait confiance et où ton travail a un impact réel ?Rejoins IGOSEO et participe à une aventure stimulante dans un environnement jeune, dynamique et...
-
Stage Développeur Web Wordpress
il y a 2 semaines
Télétravail, France Coinaute Temps pleinStage – Développeur(se) WordPress (H/F)Tu souhaites relever de nouveaux défis techniques et développer tes compétences dans un environnement innovant ?Tu veux participer à des projets concrets au sein d'un écosystème tourné vers la blockchain et le Web3 ?Rejoins Coinaute Contribue au développement de projets digitaux ambitieux aux côtés d'une...
-
Stagiaire en développement Web
il y a 2 semaines
Télétravail, France Détours en Cinécourt Temps pleinStage 2 mois – Full Remote - Non rémunéréSuivi hebdomadaire + 1 réunion plénière mensuelle (obligatoire)Objectifs du stageNotre association Détours en Cinécourt œuvre depuis plus de 30 ans dans la diffusion de courts-métrages sur l'agglomération toulousaine. Elle organise chaque année un festival annuel de diffusion d'une semaine, ainsi que des...
-
Télétravail, France Art Graphics Temps pleinBonjour Je suis Jelisavka Bojovic, graphiste, développeuse web et traductrice assermentée (serbo-croate/français).Je propose mes services aux entreprises et institutions pour :Création de sites web (WordPress, HTML/CSS, SEO, accessibilité RGAA) ;Design graphique (identité visuelle, affiches, brochures, supports digitaux) ;Traduction et interprétation...
-
Senior Lead Technique et
il y a 2 semaines
Télétravail, France Collective Temps pleinSenior Lead Technique / Descriptif du posteLead the development, optimization, and maintenance of our applications (performance, structure, reusable components, plugins).Design and implement custom integrations across our ecosystem (Shopify, CRM/ERP, payment gateways, etc.).Participate in the migration strategy from Bubble toward a hybrid or full-code stack...
-
Bénévolat- Web Designer UX/UI
il y a 2 semaines
Télétravail, France Association Des Experts en Sécurité et Sûreté Temps pleinMission en distancielL'Association ADESS recherche une personne souhaitant s'engager bénévolement pour contribuer à la refonte de son site web. Vous rejoindrez une petite équipe de bénévoles déjà en place (chef de projet, développeur, référenceur).Votre rôleParticiper à l'amélioration de l'UX/UI du siteCréer ou mettre à jour des maquettes...
-
Développeur PL/SQL Senior – Batch Complexes
il y a 2 semaines
Télétravail, France Collective Temps pleinHello Nous c'est WEKEY Nous ne sommes ni une ESN ni un cabinet de recrutement. Aaah mais qui sommes-nous alors ?Pour tout savoir sur nous et votre future mission c'est par ici Vous êtes Développeur PL/SQL Senior H/F et vous recherchez une mission en freelance ? Nous avons le projet qu'il vous faut pour l'un de nos clients basés à Niort dans le...
-
Stage - Développeur FullStack
il y a 2 semaines
Télétravail, France Layerdev Temps pleinStage - Développeur FullStackÀ pourvoir dès février/mars et pour une durée de 4 à 6 mois.**À propos du stage et de l'entrepriseAfin de renforcer les équipes techniques, nous sommes à la recherche d'un développeur web.Depuis plusieurs années, Layerdev est spécialiste de la conception et gestion de projets informatiques pour l'ensemble des...
-
Développeur Windev H/F
il y a 2 semaines
Télétravail, France Clicconcept Temps pleinDans le cadre de notre développement nous recherchons un(e) : Développeur Full StackUne expérience sur les AGL PC-Soft Windev, Webdev ou Windev Mobile serait un plus.En tant que membre de l'équipe de développement, votre mission consistera à développer des applications web, mobiles et Windows sur-mesure de A à Z.Le postePiloter et développer la...
-
Bénévolat - Développeur Symfony (Mission bénévole en distanciel)
il y a 2 semaines
Télétravail, France Association Des Experts en Sécurité et Sûreté Temps pleinMission en distancielL'Association ADESS travaille sur la refonte de son site web et souhaite accueillir une personne ayant de l'intérêt ou de l'expérience en développement Symfony pour contribuer bénévolement au projet.Vous rejoindrez une petite équipe de bénévoles (chef de projet, développeurs, designer, référenceur).Votre rôleSelon vos...