Bonjour,
C'est vrai que la technique n'est pas annoncée par Google, etc.
Mais comment les bots lisent un lien (page web): en l'ouvrant en tant qu'arbre DOM?
Bonjour,
C'est vrai que la technique n'est pas annoncée par Google, etc.
Mais comment les bots lisent un lien (page web): en l'ouvrant en tant qu'arbre DOM?
http://en.wikipedia.org/wiki/Web_crawler
En cherchant un peu, tu devrais le trouver en français. Allez, un petit effort !
Merci pour le lien mais je ne cherche pas à savoir ce que c'est un bot ou crawler!
Comment en général trouver ce qu'on cherche dans une page web, fichier html? en faisant un regex, en le chargeant dans un arbre dom, etc ?
Salut
On ne peut récupérer le contenu d'une page HTML qu'en faisant une requête HTTP de type GET à l'adresse (URI) de la page.
Si le crawler se "contente" de récupérer les pages du site, il pourra se contenter de rechercher les "anchors" qui donnent les liens vers d'autres pages. La détection des "anchors" dans du HTML est assez simple et des regexp suffisent.
Si le robot doit analyser le contenu de la page pour y récupérer des informations dans le "corps"... simuler les entrées humaines...
Là, il faudra en quelque sorte lui donner "l'adresse" des informations en question pour pouvoir aller les chercher dans l'arbre que constitue la page HTML. WEB2.0, les mashups et le Web scraping ont permis l'éclosion de pas mal d'outils qui permettent de réaliser cela sans trop mettre les mains dans le HTML.
Jetez un oeil à http://www.packtpub.com/article/web-...ng-with-python
Il vous montre comment çà 'fonctionne'.
- W
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager