IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Conception Web Discussion :

fichier robots.txt et spider ?


Sujet :

Conception Web

  1. #1
    Membre éclairé
    Homme Profil pro
    Inscrit en
    Décembre 2011
    Messages
    268
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2011
    Messages : 268
    Points : 663
    Points
    663
    Par défaut fichier robots.txt et spider ?
    je suis en train de me faire un spider actuellement
    est-ce que l'on est obligé de respecter le fichier robots.txt s'il existe ?

    il n'y a rien de l'ietf qui dise de le prendre en compte obligatoirement, keywords "MUST", "SHOULD", "SHALL"

  2. #2
    Membre expert
    Avatar de Muchos
    Homme Profil pro
    Enseignant
    Inscrit en
    Décembre 2011
    Messages
    1 704
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : France, Ardennes (Champagne Ardenne)

    Informations professionnelles :
    Activité : Enseignant
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Décembre 2011
    Messages : 1 704
    Points : 3 861
    Points
    3 861
    Billets dans le blog
    6
    Par défaut
    Comme le dit le site robotstxt.org, seuls les mauvais robots ne respectent pas ce fichier.
    J'imagine que c'est vous qui voyez quelle réputation vous voulez donner au vôtre.

  3. #3
    Membre éclairé
    Homme Profil pro
    Inscrit en
    Décembre 2011
    Messages
    268
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2011
    Messages : 268
    Points : 663
    Points
    663
    Par défaut
    ça dépend, là ils disent "well behaved", ce serait plutôt un robot bien élevé alors
    de ce que j'en déduis, c'est donc que ce n'est pas obligatoire
    et en l’occurrence ça ne me dérange pas d'avoir un robot mal élevé

    si quelqu'un ne veut pas se faire indexer par un moteur de recherche, à ce moment là il ne fait pas de site internet
    et s'il ne veut pas que l'on voit certaines pages, à ce moment là il ne met pas de lien permettant d'y accéder, c'est simple quand même ?

    - déjà que c'est assez chiant de jongler avec toutes infos contenues dans la page et bien indexer les urls contenues dans les liens sans faire de doublons
    - du style les sites d'agrégateurs de news, yahoo, msn, qui nous donnent des urls à rallonge avec visiblement guids à la volée qui nous font plusieurs url correspondants en fait à la même page
    - il faut aussi détecter les pages à contenu exactement similaire alors que ce n'est pas la même url
    - savoir identifier ce qui pourraient être des menus pour que ces mots aient un poids moins important lors de la phase de recherche
    - et j'en passe
    - sans compter les urls de type non html ou xml -> va indexer du vrml ou du word/pdf/excel ...

    -> alors me taper un fichier robots.txt en plus alors que ce n'est pas obligatoire et que l'ietf n'en parle même pas, ça jamais !
    pourquoi pas prendre en compte les balises de mot clés, de titre et de description tant qu'à faire

    en tout cas, je me suis trouvé un bon site de départ :
    http://www.journaux.net/

    pas mal de liens riches qui mènent un peu à tout et à toutes les langues, donc une page très intéressante pour faire débuter un spider avec bdd vierge, ça donne de bons résultats de recherche assez vite

    de ce que je viens de comprendre (ou pigé) parce que là je ne comprend plus vraiment les résultats que j'obtiens mais bon voici

    la notion de "bifurcation" est très importante car elle révèle un spider qui est capable d'obtenir des sources multiples en moins de 10 sources récursives
    et étonnement les nombres de feigenbaum fonctionnent aussi sur ces stats ?!

    là il faut m'expliquer

    j'explique :
    un spider n'a pas vocation à se perdre dans les liens d'un seul site
    donc à chaque lecture de page web on référence les liens
    généralement les premiers liens obtenus font partie du site
    donc pour la prochaine url à analyser on choisira plutôt une url au hasard parmi les autres référencées précédemment (des autres urls analysées précédemment aussi )
    -> de ce fait on sortira plus facilement du site en cours d'analyse
    c'est ce que j'appelle des bifurcations

    et de ce que je m'aperçois des derniers résultats :
    - plus les bifurcations sont nombreuses, plus l'agglomérat de données correspond à une tendance journalière de "news"

    je viens de comprendre le fonctionnement optimal d'un spider à force d'essayer, je ne dis pas que j'ai forcément la meilleure méthode
    mais je pense que :

    le meilleur fonctionnement pour récupérer n'importe quelles données correspondant à un ensemble d'urls non connues au départ et à partir d'une "primo-url" origine non connue est celui ci :

    Nom : 1280px-LogisticMap_BifurcationDiagram.png
Affichages : 47
Taille : 253,2 Ko

    on remarquera que les bifurcations chaotiques commencent à partir de période de trois bifurcations chacune
    et de ce que l'on voit sur le graphe, cela donne étonnement une somme d'"attracteurs étranges" extrêmement riche pour une fonction aussi simple
    - ie -> par "attracteurs étranges" on visera les flagrantes lignes et similis de sinusoïdes que l'on voit sur le graphe et qui sont sans explication pour l'instant

    mais c'est pas grave je les utilise quand même ces résultats
    et donc visiblement de mes test il suffit de fonctionner de manière simple en fait et de ne pas chercher la complexité dans le fonctionnement du spider :
    - il faut que le spider fasse en sorte de sortir du site en cours d'analyse toutes les 3 urls
    - quitte à y revenir par la suite sous réserve de l'appréciation de l'acceptabilité du résultat du graphe de cantor
    -> et là ça donne des résultats rapides

    et de ce que je répète comme question :
    je ne vois pas pourquoi des -1 sont arrivés sur ma réponse de ne pas prendre en compte les fichiers robots.txt lors de la phase de recherche de mon spider
    ce fichier n'est en rien considéré comme obligatoire ni comme certains aiment visiblement le faire croire comme étant un "gentleman du web"

    l'ietf n'en parle pas et à mon avis n'en parlera jamais de ton fichier robot.txt
    ie -> ce fichiers robots.txt ne sert tout simplement à rien, c'est tout, il va bien falloir s'y faire

Discussions similaires

  1. [debutant(e)] Accès au fichier robot.txt
    Par SPACHFR dans le forum Référencement
    Réponses: 2
    Dernier message: 12/06/2013, 14h13
  2. Fichier robots.txt pour google
    Par ni-ni13 dans le forum Référencement
    Réponses: 0
    Dernier message: 27/09/2010, 14h45
  3. Cacher le fichier robots.txt aux navigateurs
    Par itmak dans le forum Apache
    Réponses: 3
    Dernier message: 04/01/2010, 12h34
  4. Comment créer le fichier robots.txt
    Par tremeur53 dans le forum Référencement
    Réponses: 2
    Dernier message: 13/05/2009, 02h30
  5. Cherche parseur fichier robots.txt
    Par bluecurve dans le forum Langage
    Réponses: 9
    Dernier message: 12/07/2005, 07h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo