récuperation de données sur un site externe

**vinil** · 03/02/2017, 12h16

Bonjour,

je voudrais savoir si cela était possible de créer en php un bot qui recherche sur google et qui sélectionne des infos pour les afficher , je ne trouve pas énormément de tuto sur cURL j'ai donc commencer par un exemple simple mais sa ne marche pas je ne comprend pas pourquoi :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
<?php
    $curl = curl_init();
    $fp = fopen("codesource.txt", "w");
    curl_setopt ($curl, CURLOPT_URL, "");
    curl_setopt($curl, CURLOPT_FILE, $fp);
 
    $htmlfichier = file_get_contents('codesource.txt');
       preg_match_all("<table>", $htmlfichier, $out, PREG_PATTERN_ORDER);
        $balise = fopen('balise.txt', "w");
       foreach($out[0] as $element){
           $element = preg_replace("<table>", "", $element);
           $element = preg_replace("</table>", "", $element);
           $element .= "n";
           fputs($balise, $element);
        file_get_contents($balise);
       }
 
 
    curl_exec ($curl);
    curl_close ($curl);
 
 
        ?>

je voudrais qu'il prenne le code source d'une page donc sa il le fait bien elle s'enregistre dans "codesource.txt" mais ensuite je voudrais enregistrer dans une autre page pour mettre a part ce que contient la balise "table" du code source extrait par exemple

merci

**sabotage** · 03/02/2017, 13h03

Utilise un parser comme DomDocument ou SimpleXML pour analyser le code HTML, pas une expression régulière.

**vinil** · 03/02/2017, 13h17

c'est a dire ? et pourquoi l'expression régulière ne fonctionne pas ? et comment lui dire de sélectionné les balises <table> et </table> dans la boucle ? je suis un peu perdu et je n'ai trouver aucun tuto claire

**vinil** · 04/02/2017, 14h17

Bon j'ai bien réussi a récupérer les lien avec

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

preg_match_all('#'.$regex.'<a href="(.*)">(.*)</a>#si', $result, $matches);

mais quand je clique sur les url récupérer j'ai "url?q=" ceci avant chaque "http" donc comment faire pour ne pas le prendre en compte ? les url complète ressemble a sa :

url?q=http://etudiant.aujourdhui.fr/etudiant/metiers/fiche-metier/comptable.html&sa=U&ved=0ahUKEwjzzIPIwvbRAhVBB8AKHYwMB5MQFghGMAg&usg=AFQjCNFO77Aztqffj-X1TvrOf07JLO6cZA

**Spixz** · 06/02/2017, 01h33

Salut, j'ai déjà eu à faire la même chose que toi et j'ai utilisé HTMLDomParser que je te conseil : http://simplehtmldom.sourceforge.net/manual.htm
Il te suffit de repérer dans quel classe sont les liens de ta page de résultats google et de les extraire tous en même temps.
Après comme il n'y aura pas que les liens mais peut être le titre aussi, là tu peux utiliser les Regex.
Chaque résultats correspondant à un lien sera stocker automatiquement dans une case du tableau.
Tu n'auras plus qu'a parcourir tout le tableau.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
// Find all element which id=foo
$ret = $html->find('#foo');
 
// Find all element which class=foo
$ret = $html->find('.foo');
 
// Find all element has attribute id
$ret = $html->find('*[id]'); 
 
// Find all anchors and images 
$ret = $html->find('a, img'); 
 
// Find all anchors and images with the "title" attribute
$ret = $html->find('a[title], img[title]');

Si t'as un problème hésite pas, je l'ai déjà fait

récuperation de données sur un site externe

Langage PHP

Discussions similaires

Partager

Partager