IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Modules Perl Discussion :

Besoin d'un ti coup de mains avec WWW::RobotRules


Sujet :

Modules Perl

  1. #1
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut Besoin d'un ti coup de mains avec WWW::RobotRules
    Bonjour je doit écrire un crawler en perl , mais la j'ai un probleme avec WWW::RobotRules je ne comprend pas comment l'utiliser simplement

    Voici le prb , mon crawler extrait les url des pages , puis le robot ce relance sur ces url , ok mais je trouve pas comment cabler www::robotrules etant donné qu'il veut des url du type http://www.google.fr/robots.txt , hors les urls sont pour la plus part dans le genre http://monsite.com/maison.html , en plus disont que j'ai un site http://monrobot.com il faudrais donc que www::robotrules fasse http://monrobot.com/robots.txt hors il ne semble pas prévue pour sa tout seul il faut lui ajouté une machinerie derrière ,je sais que le module LWP::RobotUA est fait pour sa mais moi c'est LWP:arallel::UserAgent , que j'utilise et il n'est pas spécifié dans sa documentation qu'il prennent en charge robots.txt.

    LWP:arallel::UserAgent prend t'il en charge robots.txt , même si c'est pas spécifié ?

    Peut on marié LWP::RobotUA et LWP:arallel::UserAgent dans le même script si non ?

    Avez vous un idée , même si elle parait co* ?

    Merci de votre aide
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  2. #2
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    WWW::RobotRules est assez simple à utiliser en fait :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
     
     use WWW::RobotRules;
     
     #tu crées un nouvel objet WWW::RobotRules
     my $rules = WWW::RobotRules->new('MOMspider/1.0');
     
     use LWP::Simple qw(get);
     
     {
       #quand tu vas sur un nouveau site tu commences par
       #récupérer son /robots.txt
       my $url = "http://some.place/robots.txt";;
       my $robots_txt = get $url;
     
       #Tu passes l'url du fichier robots.txt et son contenu à la méthode
       #parse() de ton objet WWW::RR
       $rules->parse($url, $robots_txt) if defined $robots_txt;
     }
     
     {
     
       #tu peux répéter le processus pour chaque site que tu visites,
       #toujours avec le même objet
       my $url = "http://some.other.place/robots.txt";;
       my $robots_txt = get $url;
       $rules->parse($url, $robots_txt) if defined $robots_txt;
     }
     
     # Pour vérifier si tu as le droit de visiter une url, il te suffit ensuite
     # d'utiliser la méthode allowed() de ton objet
     if($rules->allowed($url)) {
         $c = get $url;
         ...
     }
    Donc dans ton schéma, il faut que ce soit le controlleur qui possède l'objet WWW::RobotRules et qui l'utilise pour vérifier quelles URL sont visitables. A chaque fois que tu vas pour visiter un nouveau site, ce controlleur commence par télécharger son robots.txt et le faire parser par son objet WWW::RobotRules.

    --
    Jedaï

  3. #3
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Comme toujours Jedai t'est le meilleur
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  4. #4
    Expert confirmé
    Avatar de GLDavid
    Homme Profil pro
    Service Delivery Manager
    Inscrit en
    Janvier 2003
    Messages
    2 859
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Service Delivery Manager
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Janvier 2003
    Messages : 2 859
    Points : 4 810
    Points
    4 810
    Par défaut
    Un petit tag Résolu si c'est OK.

    Merci

    @++
    GLDavid
    Consultez la FAQ Perl ainsi que mes cours de Perl.
    N'oubliez pas les balises code ni le tag

    Je ne répond à aucune question technique par MP.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Besoin d'un petit coup de main avec Reflection
    Par teddyalbina dans le forum C#
    Réponses: 1
    Dernier message: 18/11/2008, 00h54
  2. Besoin d'un coup de main avec HTML::Parser
    Par mobscene dans le forum Modules
    Réponses: 1
    Dernier message: 09/12/2006, 15h49
  3. Réponses: 3
    Dernier message: 23/10/2006, 02h07
  4. Besoin d'un coup de main avec print
    Par scaleo dans le forum Langage
    Réponses: 2
    Dernier message: 10/06/2006, 21h12
  5. Besoin d'un petit coup de main avec les hash
    Par scaleo dans le forum Langage
    Réponses: 6
    Dernier message: 31/05/2006, 23h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo