Bonjour à tous,
J'ai un problème pour capturer le contenu d'une balise issue d'une page récupérée avec Curl.
$content = recuperer_page_http($v['adr1'].$plus.$v['adr2'], 10,'','');
J'ai testé le retour de ma fonction "recuperer_page_http" qui utilise Curl et elle me retourne la page html passée en paramètre en un "string" contenant l'ensemble de la page
De cette page j'aimerais en extraire des données spécifiques, pour ça j'ai identifié des noms de classe de balise de la page qui entoure mon information.
Voici le patern que j'ai créé pour mon preg_match_all ce ui me permet de récupérer le contenu de la balise "dd" avec la classe "pdg_b_sm"
$content = preg_match_all("#<dd class=\"pdg_b_sm\">.*</dd>#",$content,$resultats,PREG_PATTERN_ORDER);
Puis je l'affiche comme cela pour voir les résultats :
1 2 3
| foreach ($resultats[0] as $result) {
print_r(htmlentities($result));// store each $result in database or create a new spider to spider next page
} |
Résultat des courses, tout ce code m'affiche 20 fois (nombre d'occurences trouvé dans la page) le string "<dd class="pdg_b_sm"></dd>" Alors que ce que je veux isoler, c'est justement le contenu de cette balise.
Si vous pouvez m'apporter de l'aide en ce qui concerne mon problème ça serait sympa, j'ai appris les expressions régulières depuis peu et la fonction preg_match_all() aussi, mais ça fait 2 jours que je m'arrache les cheveux. Pourtant je suis certain de ne pas être loin de la solution...
Merci d'avance
Partager