Documentsanstitre .pdf


Nom original: Documentsanstitre.pdf

Ce document au format PDF 1.5 a été généré par / Skia/PDF m54, et a été envoyé sur fichier-pdf.fr le 04/08/2016 à 10:51, depuis l'adresse IP 86.197.x.x. La présente page de téléchargement du fichier a été vue 343 fois.
Taille du document: 156 Ko (2 pages).
Confidentialité: fichier public


Aperçu du document


Introduction au web scraping 
 
 
Bonjour, dans ce document je vais vous présenter le web 
scraping et vous expliquez les bases. 
 
Tout d’abord qu’est­ce que le web scraping ? 
 
Le web scraping est le fait de récupérer des informations sur 
un site en passant directement par un programme donc faire un 
robot en quelque sorte. 
 
C’est utiliser pour récupérer des informations, automatiser 
des action, c’est très utile. 
 
En général on utilise des langages script (python, ruby etc…) 
pour faire ces programmes.  
 
Tout d’abord le programme va faire une requête vers la cible 
en question (un site) puis, récupérer ces informations et les 
triées pour sélectionner uniquement les donnés voulus. 
 
Une image qui représente le web scraping :  
 

 
 
Pour sélectionner les donnés voulus,on va devoir analyser une 
page. 
 
Nous allons d’abord analyser les requête HTTP nous allons 
faire cela sur twittter version mobile :  
https://mobile.twitter.com/login 
 

Si j’inspecte l’élément et que je regarde dans network je vais 
pouvoir suivre les requêtes HTTP, je n’ai rien d'intéressant 
dans l’header. 
 
Maintenant je vais me connecter et suivre les connexions :  
 

 
 
Je vois le username que j’ai mis, le password que j’ai mis. 
Je vois également un token. 
 
Ce token et obligatoire il sert à bloquer les attaques CSRF 
mais le problèmes et que si le token n’est pas le bon il ne 
nous laisse pas passer de plus il change à chaque donc il va 
falloir récupérer le token. 
 
Le token se trouve dans le code source si je regarde le code 
source et que je cherche “token” en faisant un ctrl+f je 
tomber sur cette ligne :  
 
 
 
Je dois donc sélectionner le token à partir du code source. 
Pour cela nous pouvons faire un script en Python par exemple. 
Voilà pour les bases du web scraping. 
 


Aperçu du document Documentsanstitre.pdf - page 1/2

Aperçu du document Documentsanstitre.pdf - page 2/2




Télécharger le fichier (PDF)


Documentsanstitre.pdf (PDF, 156 Ko)

Télécharger
Formats alternatifs: ZIP




Documents similaires


documentsanstitre
regles smog bullitt version
cahier d activites python chapitre un
search engine optimization starter guide fr
e7copystrattotemmobi
test of honour francais par hobby shop

Sur le même sujet..




🚀  Page générée en 0.299s