Besoin d'un ti coup de mains avec WWW::RobotRules

**scaleo** · 06/09/2005, 11h58

Bonjour je doit écrire un crawler en perl , mais la j'ai un probleme avec WWW::RobotRules je ne comprend pas comment l'utiliser simplement

Voici le prb , mon crawler extrait les url des pages , puis le robot ce relance sur ces url , ok mais je trouve pas comment cabler www::robotrules etant donné qu'il veut des url du type http://www.google.fr/robots.txt , hors les urls sont pour la plus part dans le genre http://monsite.com/maison.html , en plus disont que j'ai un site http://monrobot.com il faudrais donc que www::robotrules fasse http://monrobot.com/robots.txt hors il ne semble pas prévue pour sa tout seul il faut lui ajouté une machinerie derrière ,je sais que le module LWP::RobotUA est fait pour sa mais moi c'est LWP:

arallel::UserAgent , que j'utilise et il n'est pas spécifié dans sa documentation qu'il prennent en charge robots.txt.

LWP:

arallel::UserAgent prend t'il en charge robots.txt , même si c'est pas spécifié ?

Peut on marié LWP::RobotUA et LWP:

arallel::UserAgent dans le même script si non ?

Avez vous un idée , même si elle parait co* ?

Merci de votre aide

**Jedai** · 06/09/2005, 12h20

WWW::RobotRules est assez simple à utiliser en fait :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
 
 use WWW::RobotRules;
 
 #tu crées un nouvel objet WWW::RobotRules
 my $rules = WWW::RobotRules->new('MOMspider/1.0');
 
 use LWP::Simple qw(get);
 
 {
   #quand tu vas sur un nouveau site tu commences par
   #récupérer son /robots.txt
   my $url = "http://some.place/robots.txt";;
   my $robots_txt = get $url;
 
   #Tu passes l'url du fichier robots.txt et son contenu à la méthode
   #parse() de ton objet WWW::RR
   $rules->parse($url, $robots_txt) if defined $robots_txt;
 }
 
 {
 
   #tu peux répéter le processus pour chaque site que tu visites,
   #toujours avec le même objet
   my $url = "http://some.other.place/robots.txt";;
   my $robots_txt = get $url;
   $rules->parse($url, $robots_txt) if defined $robots_txt;
 }
 
 # Pour vérifier si tu as le droit de visiter une url, il te suffit ensuite
 # d'utiliser la méthode allowed() de ton objet
 if($rules->allowed($url)) {
     $c = get $url;
     ...
 }

Donc dans ton schéma, il faut que ce soit le controlleur qui possède l'objet WWW::RobotRules et qui l'utilise pour vérifier quelles URL sont visitables. A chaque fois que tu vas pour visiter un nouveau site, ce controlleur commence par télécharger son robots.txt et le faire parser par son objet WWW::RobotRules.

--
Jedaï

**scaleo** · 06/09/2005, 12h23

Comme toujours Jedai t'est le meilleur

**GLDavid** · 06/09/2005, 12h27

Un petit tag Résolu si c'est OK.

Merci

@++

Besoin d'un ti coup de mains avec WWW::RobotRules

Modules Perl

Discussions similaires

Partager

Partager