Réservez les formations disponibles partout en France !

location-dot
location-dot
location-dot
À partir de
location-dot
image OF
  1. Accueil
  2. Numérique
  3. Développement et langage informatique
  4. Python
  5. Web scraping avec Python
Web scraping avec Python

Web scraping avec Python

Qualiopi
En centre
Non éligible CPF
Sélectionnez une session :
Mérignac :
TEAMS-CAD :

Choisissez une date pour pouvoir réserver !

Objectifs
Programme

A l'issue de cette formation, vous serez capable de :

  • Décrire le fonctionnement et les applications des Web scrapers
  • Développer un Web scraper avec des features avancées (formulaires, login, JavaScript, API)
  • Activer le levier des architectures multi-thread et multi-processus pour du scraping à large échelle.

Jour 1

Les fondamentaux du Web scraping

  • Rappels sur Internet : modèle à sept couches, HTML, CSS, JavaScript, outils du développeur Web
  • Aspects réglementaires et éthiques du Web scraping : marques déposées, copyrights, brevets...
  • Applications du Web scraping : marketing, ventes, entraînement d'IA, développement de produits, recherche académique...
  • Bien démarrer un projet de Web scraping

Exemple de travaux pratiques (à titre indicatif)

  • Création d'un premier Web scraper avec Jupyter et la librairie BeautifulSoup

Analyse HTML avancée

  • Les objets de BeautifulSoup
  • Naviguer à travers des structures arborescentes
  • Gérer les expressions régulières
  • Accéder à des attributs
  • Expressions Lambda
  • Gérer différentes mises en page de sites
  • Structurer des crawlers : crawlers à base de recherche, à base de liens, par type de page

Exemple de travaux pratiques (à titre indicatif)

  • Développement d'un Web crawler mono-domaine ou multi-domaine

Introduction à Scrapy

  • Exemple de scraper Scrapy
  • Utilisation des règles
  • Création d'items
  • Items d'output
  • Pipeline d'items
  • Gestion des logs avec Scrapy

Exemple de travaux pratiques (à titre indicatif)

  • Création d'un Web scraper avec Scrapy

Jour 2

Scraping avancé

  • Lecture de documents texte, CSV, PDF, MS Word
  • Nettoyage de texte avec Pandas
  • Travailler avec du texte normalisé
  • Lire et résumer du langage naturel avec NLTK
  • Analyse statistique et lexicographique avec NLTK

Exemple de travaux pratiques (à titre indicatif)

  • Création d'un Web scraper avancé capable de traiter le langage naturel

Crawling à travers des formulaires et interfaces de login

  • Présentation de la librairie Requests
  • Exemple de soumission d'un formulaire
  • Gérer les boutons radio, les cases à cocher, et autres inputs
  • Soumission de fichiers et images
  • Gérer les logins et cookies

Exemple de travaux pratiques (à titre indicatif)

  • Amélioration du Web scraper en lui ajoutant des features liées aux formulaires et logins

Scraping sur du code JavaScript

  • Rappels sur JavaScript, Ajax, et le HTML dynamique
  • Exécuter des scripts JavaScript dans Python avec Selenium
  • Autres Selenium WebDrivers
  • Gérer les redirections

Jour 3

Scraping sur des API

  • Rappels sur les API
  • Parsing de JSON
  • Documenter des API non-documentées

Gérer les CAPTCHA avec la reconnaissance d'images et de texte

  • Librairies disponibles pour la gestion des CAPTCHA : Pillow, Tissaract, NumPy
  • Exemple de reconnaissance d'images et de texte
  • Entraînement de Tissaract pour la lecture de CAPTCHA

Exemple de travaux pratiques (à titre indicatif)

  • Amélioration du Web scraper en lui ajoutant des features de gestion de CAPTCHA

Parallélisation du Web scraping

  • Rappel sur les processus et threads
  • Exemple de crawling multi-thread
  • Exemple de crawling multi-processus

Exemple de travaux pratiques (à titre indicatif)

  • Amélioration du Web scraper en lui ajoutant des features de gestion de code Javascript et d'API
Public visé

Développeurs, Data scientists, Data analysts, ingénieurs Data, intégrateurs, chefs de projets, consultants BI/Big Data.

Prérequis

Avoir une expérience en développement, de préférence avec Python.

Choisissez une date pour pouvoir réserver !

Autres formations disponibles :
formation
Cayenne (97300)
PYTHON
Prochaines sessions disponibles :01 août01 sept.01 oct.01 nov.
Qualiopi
En centre
Éligible CPF
Prochaines sessions disponibles :04 août11 août18 août25 août
Qualiopi
En visio
Non éligible CPF
Prochaines sessions disponibles :04 août11 août18 août25 août
Qualiopi
En visio
Non éligible CPF
Prochaines sessions disponibles :10 sept.03 nov.03 déc.
Qualiopi
En centre
Non éligible CPF
formation
Labège (31670)
Pandas avancé
Prochaines sessions disponibles :15 sept.16 mars
Qualiopi
En centre
Non éligible CPF
logo ouformer
Réalisation :Definima
Utilisation des cookies

Nous utilisons des cookies pour vous fournir l'ensemble de nos services, notamment la recherche et les alertes. En acceptant, vous consentez à notre utilisation de ces cookies.

Tout refuser
Tout accepter