Bonjour je doit écrire un crawler en perl , mais la j'ai un probleme avec WWW::RobotRules je ne comprend pas comment l'utiliser simplement
Voici le prb , mon crawler extrait les url des pages , puis le robot ce relance sur ces url , ok mais je trouve pas comment cabler www::robotrules etant donné qu'il veut des url du type http://www.google.fr/robots.txt , hors les urls sont pour la plus part dans le genre http://monsite.com/maison.html , en plus disont que j'ai un site http://monrobot.com il faudrais donc que www::robotrules fasse http://monrobot.com/robots.txt hors il ne semble pas prévue pour sa tout seul il faut lui ajouté une machinerie derrière ,je sais que le module LWP::RobotUA est fait pour sa mais moi c'est LWP:arallel::UserAgent , que j'utilise et il n'est pas spécifié dans sa documentation qu'il prennent en charge robots.txt.
LWP:arallel::UserAgent prend t'il en charge robots.txt , même si c'est pas spécifié ?
Peut on marié LWP::RobotUA et LWP:arallel::UserAgent dans le même script si non ?
Avez vous un idée , même si elle parait co* ?
Merci de votre aide![]()
Partager