crawler en php/curl

**johnny-57** · 27/09/2013, 15h42

Bonjour,

J'ai un petit soucis, j'ai un robot d'indexation que j'ai codé en php/curl. Pour ne pas perdre de temps, et relancer le robot sur la prochaine url dés qu'il a terminé l'actuel j'ai ajouté en fin de code une requête curl qui boucle sur le fichier du robot.

Problème, malgré que j'ai désactivé la récupération du contenu de la page, le premier lancement du script du robot attends le résultat de la requête curl sur lui même et ainsi de suite et on fini sur une erreur 500 ce qui a pour effet de me laisser de plus en plus de connexion mysql ouvertes et ça fini par poser des problèmes.

Deuxième point, moins grave, les logs serveur m'affichent une erreur 401 malgré que la requête aboutie bien.

Le code que j'utilise :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
$http_auth_ident = "login:mdp";
$c = curl_init();
curl_setopt($c, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
curl_setopt($c, CURLOPT_USERPWD, $http_auth_ident); 
curl_setopt($c, CURLOPT_URL, "urlducrawler");
curl_exec($c);                
curl_close($c);

Merci d'avance de votre aide.

**sabotage** · 28/09/2013, 10h21

attends le résultat de la requête curl sur lui même

Je n'ai pas compris cette phrase.

En tout cas, je ne sais pas comment tu as fait ton code (puisque tu ne l'as pas dit) mais un script PHP attend forcemment la fin de l'étape précédente pour avancer. Si tu veux lancer plusieurs actions sans attendre, il faut t'interesser soit au multithread soit lancer de nouvelles instances de php dans ton script.

**johnny-57** · 28/09/2013, 10h26

Je vais essayer de faire simple.

Disons que mon script s'appelle crawl.php

crawl.php se compose ainsi :

#recherche en BDD de la page à crawler
#crawl de cette page via php/curl
#enregistrement en BDD du resultat du crawl

#lancement d'une requête php/curl (code donné dans le premier message) sur crawl.php pour le relancer afin qu'il crawl la prochaine page

Vu que je ne demande pas à cette dernière requête curl de récupérer le contenu de crawl.php je pensais que php n'attendrait pas le résultat de la requête.

**sabotage** · 28/09/2013, 11h47

Il faudrait également que tu regardes quelle est l'erreur PHP derrière ton erreur 500.
Tu peux faire une interface en Ajax, tu pourras voir les resultat au fur et à mesure des réponses.

**johnny-57** · 28/09/2013, 12h23

ajax m'obligerait à garder une fenêtre navigateur ouverte alors que je veux que le crawler tourne en automatique sur le serveur 24h/24.

Pour l'erreur php plus en détails, je regarde les logs apache ? Si c'est là que je dois regarder c'est déjà fais, et à heure égale je ne trouve pas d'enregistrement correspondant.

**sabotage** · 28/09/2013, 16h34

Non, les logs PHP.

Dans ce que tu fais aussi tu as besoin de garder le navigateur ouvert.
Si c'est un système en backoffice, il faut faire des appels en ligne de commande.

**johnny-57** · 28/09/2013, 17h07

Non, je ne garde pas le navigateur ouvert. Un cronjob appel le script toutes les 5 minutes. A chaque lancement du script j'enregistre l'heure du dernier lancement.

Ainsi, si quand le cronjob lance le script l'heure du dernier chargement du script a moins de 5 minutes on ne fait rien, si le dernier lancement est plus vieux que de 5 minutes on relance parce qu'on considère que le script c'est arrêté. Du coup le crawler tourne en tache de fond sur le serveur sans aucune action de ma part.

Je n'arrive pas à trouver dans le répertoire log du serveur de fichier plus précis sur le soucis. Comment peut s'appeler le fichier de log php ?

**sabotage** · 28/09/2013, 18h17

Si tu lances ton script en cron, c'est encore plus inutile de passer par curl et le serveur web pour l'appeller a nouveau depuis lui même.

Le fichier de log est défini dans ton php.ini (la valeur est donc visible dans le phpinfo() est également).

**johnny-57** · 29/09/2013, 16h45

Merci, je vais regarder coté log php.

Un cron toutes les minutes me fait perdre beaucoup de temps, certains crawl ne prennent que quelques secondes, c'est pour ça que je boucle avec curl. Pour gagner ce temps.

crawler en php/curl

Langage PHP

Discussions similaires

Partager

Partager