Comment les bots lisent une page web

Lucas Panny · 27/04/2010, 11h12

Bonjour,

C'est vrai que la technique n'est pas annoncée par Google, etc.
Mais comment les bots lisent un lien (page web): en l'ouvrant en tant qu'arbre DOM?

**Patriarch24** · 27/04/2010, 16h15

http://en.wikipedia.org/wiki/Web_crawler
En cherchant un peu, tu devrais le trouver en français. Allez, un petit effort !

Lucas Panny · 30/04/2010, 10h00

Merci pour le lien mais je ne cherche pas à savoir ce que c'est un bot ou crawler!
Comment en général trouver ce qu'on cherche dans une page web, fichier html? en faisant un regex, en le chargeant dans un arbre dom, etc ?

**Patriarch24** · 30/04/2010, 10h24

Ben en utilisant un parser HTML...

**wiztricks** · 01/05/2010, 22h39

Salut
On ne peut récupérer le contenu d'une page HTML qu'en faisant une requête HTTP de type GET à l'adresse (URI) de la page.

Si le crawler se "contente" de récupérer les pages du site, il pourra se contenter de rechercher les "anchors" qui donnent les liens vers d'autres pages. La détection des "anchors" dans du HTML est assez simple et des regexp suffisent.

Si le robot doit analyser le contenu de la page pour y récupérer des informations dans le "corps"... simuler les entrées humaines...

Là, il faudra en quelque sorte lui donner "l'adresse" des informations en question pour pouvoir aller les chercher dans l'arbre que constitue la page HTML. WEB2.0, les mashups et le Web scraping ont permis l'éclosion de pas mal d'outils qui permettent de réaliser cela sans trop mettre les mains dans le HTML.

Jetez un oeil à http://www.packtpub.com/article/web-...ng-with-python
Il vous montre comment çà 'fonctionne'.
- W

Comment les bots lisent une page web

ALM

Discussions similaires

Partager

Partager