je suis en train de me faire un spider actuellement
est-ce que l'on est obligé de respecter le fichier robots.txt s'il existe ?
il n'y a rien de l'ietf qui dise de le prendre en compte obligatoirement, keywords "MUST", "SHOULD", "SHALL"
je suis en train de me faire un spider actuellement
est-ce que l'on est obligé de respecter le fichier robots.txt s'il existe ?
il n'y a rien de l'ietf qui dise de le prendre en compte obligatoirement, keywords "MUST", "SHOULD", "SHALL"
Comme le dit le site robotstxt.org, seuls les mauvais robots ne respectent pas ce fichier.
J'imagine que c'est vous qui voyez quelle réputation vous voulez donner au vôtre.
ça dépend, là ils disent "well behaved", ce serait plutôt un robot bien élevé alors
de ce que j'en déduis, c'est donc que ce n'est pas obligatoire
et en l’occurrence ça ne me dérange pas d'avoir un robot mal élevé
si quelqu'un ne veut pas se faire indexer par un moteur de recherche, à ce moment là il ne fait pas de site internet
et s'il ne veut pas que l'on voit certaines pages, à ce moment là il ne met pas de lien permettant d'y accéder, c'est simple quand même ?
- déjà que c'est assez chiant de jongler avec toutes infos contenues dans la page et bien indexer les urls contenues dans les liens sans faire de doublons
- du style les sites d'agrégateurs de news, yahoo, msn, qui nous donnent des urls à rallonge avec visiblement guids à la volée qui nous font plusieurs url correspondants en fait à la même page
- il faut aussi détecter les pages à contenu exactement similaire alors que ce n'est pas la même url
- savoir identifier ce qui pourraient être des menus pour que ces mots aient un poids moins important lors de la phase de recherche
- et j'en passe
- sans compter les urls de type non html ou xml -> va indexer du vrml ou du word/pdf/excel ...
-> alors me taper un fichier robots.txt en plus alors que ce n'est pas obligatoire et que l'ietf n'en parle même pas, ça jamais !
pourquoi pas prendre en compte les balises de mot clés, de titre et de description tant qu'à faire
en tout cas, je me suis trouvé un bon site de départ :
http://www.journaux.net/
pas mal de liens riches qui mènent un peu à tout et à toutes les langues, donc une page très intéressante pour faire débuter un spider avec bdd vierge, ça donne de bons résultats de recherche assez vite
de ce que je viens de comprendre (ou pigé) parce que là je ne comprend plus vraiment les résultats que j'obtiens mais bon voici
la notion de "bifurcation" est très importante car elle révèle un spider qui est capable d'obtenir des sources multiples en moins de 10 sources récursives
et étonnement les nombres de feigenbaum fonctionnent aussi sur ces stats ?!
là il faut m'expliquer
j'explique :
un spider n'a pas vocation à se perdre dans les liens d'un seul site
donc à chaque lecture de page web on référence les liens
généralement les premiers liens obtenus font partie du site
donc pour la prochaine url à analyser on choisira plutôt une url au hasard parmi les autres référencées précédemment (des autres urls analysées précédemment aussi )
-> de ce fait on sortira plus facilement du site en cours d'analyse
c'est ce que j'appelle des bifurcations
et de ce que je m'aperçois des derniers résultats :
- plus les bifurcations sont nombreuses, plus l'agglomérat de données correspond à une tendance journalière de "news"
je viens de comprendre le fonctionnement optimal d'un spider à force d'essayer, je ne dis pas que j'ai forcément la meilleure méthode
mais je pense que :
le meilleur fonctionnement pour récupérer n'importe quelles données correspondant à un ensemble d'urls non connues au départ et à partir d'une "primo-url" origine non connue est celui ci :
on remarquera que les bifurcations chaotiques commencent à partir de période de trois bifurcations chacune
et de ce que l'on voit sur le graphe, cela donne étonnement une somme d'"attracteurs étranges" extrêmement riche pour une fonction aussi simple
- ie -> par "attracteurs étranges" on visera les flagrantes lignes et similis de sinusoïdes que l'on voit sur le graphe et qui sont sans explication pour l'instant
mais c'est pas grave je les utilise quand même ces résultats
et donc visiblement de mes test il suffit de fonctionner de manière simple en fait et de ne pas chercher la complexité dans le fonctionnement du spider :
- il faut que le spider fasse en sorte de sortir du site en cours d'analyse toutes les 3 urls
- quitte à y revenir par la suite sous réserve de l'appréciation de l'acceptabilité du résultat du graphe de cantor
-> et là ça donne des résultats rapides
et de ce que je répète comme question :
je ne vois pas pourquoi des -1 sont arrivés sur ma réponse de ne pas prendre en compte les fichiers robots.txt lors de la phase de recherche de mon spider
ce fichier n'est en rien considéré comme obligatoire ni comme certains aiment visiblement le faire croire comme étant un "gentleman du web"
l'ietf n'en parle pas et à mon avis n'en parlera jamais de ton fichier robot.txt
ie -> ce fichiers robots.txt ne sert tout simplement à rien, c'est tout, il va bien falloir s'y faire
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager