IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

ALM Discussion :

Comment les bots lisent une page web


Sujet :

ALM

  1. #1
    Lucas Panny
    Invité(e)
    Par défaut Comment les bots lisent une page web
    Bonjour,

    C'est vrai que la technique n'est pas annoncée par Google, etc.
    Mais comment les bots lisent un lien (page web): en l'ouvrant en tant qu'arbre DOM?

  2. #2
    Membre expérimenté
    Avatar de Patriarch24
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Septembre 2003
    Messages
    1 047
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Industrie

    Informations forums :
    Inscription : Septembre 2003
    Messages : 1 047
    Points : 1 640
    Points
    1 640
    Par défaut
    http://en.wikipedia.org/wiki/Web_crawler
    En cherchant un peu, tu devrais le trouver en français. Allez, un petit effort !

  3. #3
    Lucas Panny
    Invité(e)
    Par défaut
    Merci pour le lien mais je ne cherche pas à savoir ce que c'est un bot ou crawler!
    Comment en général trouver ce qu'on cherche dans une page web, fichier html? en faisant un regex, en le chargeant dans un arbre dom, etc ?

  4. #4
    Membre expérimenté
    Avatar de Patriarch24
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Septembre 2003
    Messages
    1 047
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Industrie

    Informations forums :
    Inscription : Septembre 2003
    Messages : 1 047
    Points : 1 640
    Points
    1 640
    Par défaut
    Ben en utilisant un parser HTML...

  5. #5
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 436
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 436
    Points : 37 021
    Points
    37 021
    Par défaut
    Salut
    On ne peut récupérer le contenu d'une page HTML qu'en faisant une requête HTTP de type GET à l'adresse (URI) de la page.

    Si le crawler se "contente" de récupérer les pages du site, il pourra se contenter de rechercher les "anchors" qui donnent les liens vers d'autres pages. La détection des "anchors" dans du HTML est assez simple et des regexp suffisent.

    Si le robot doit analyser le contenu de la page pour y récupérer des informations dans le "corps"... simuler les entrées humaines...

    Là, il faudra en quelque sorte lui donner "l'adresse" des informations en question pour pouvoir aller les chercher dans l'arbre que constitue la page HTML. WEB2.0, les mashups et le Web scraping ont permis l'éclosion de pas mal d'outils qui permettent de réaliser cela sans trop mettre les mains dans le HTML.

    Jetez un oeil à http://www.packtpub.com/article/web-...ng-with-python
    Il vous montre comment çà 'fonctionne'.
    - W

Discussions similaires

  1. Changer les propriétées d'une page web à l'ouverture
    Par nicoaix dans le forum Général JavaScript
    Réponses: 1
    Dernier message: 11/04/2007, 15h44
  2. vb6 parcourir les liens d'une page web
    Par mqsi dans le forum VB 6 et antérieur
    Réponses: 6
    Dernier message: 08/11/2006, 21h29
  3. Comment enregistrer les images d'une page web ?
    Par Chris33 dans le forum Réseau/Web
    Réponses: 1
    Dernier message: 11/07/2006, 23h09
  4. [debutant] lister tout les mots d'une page web!
    Par kriskikout dans le forum Web
    Réponses: 20
    Dernier message: 31/05/2006, 23h47
  5. Site qui vérifie les actualisations d'une page web
    Par LFC dans le forum Autres langages pour le Web
    Réponses: 4
    Dernier message: 01/12/2005, 19h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo