Parsage d'urls complexes

**ebola** · 10/12/2011, 15h19

Bonjour,

J'ai un petit souci et je n'arrive pas à trouver la réponse sur le net.

Je travail sur un script qui doit récupérer et retraiter des urls dans des pages webs. La regex qui me pose problème a pour but de récupérer les urls associées à des images.

La voici :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
preg_match_all('#<a href=("|\')([^"\']*)("|\')[^>]*><img src=("|\')[^"\']*("|\')[^>]*></a>#', $contenu, $pages_images);

Elle fonctionne, mais il manque un détail pour qu'elle soit parfaite. Il faut qu'elle soit capable de traiter les liens si des choses sont insérées entre <a et href, ou entre <img et src.

Par exemple, si sur une des pages scannée il y a quelque chose sous la forme <a href="#"><img id="truc" src="#" /></a>, elle ne fonctionne plus. Je voudrais donc procéder de la même façon que pour les fin de chaines.

J'ai essayé comme ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
preg_match_all('#<a [^href]*href=("|\')([^"\']*)("|\')[^>]*><img [^src]*src=("|\')[^"\']*("|\')[^>]*></a>#', $contenu, $pages_images);

Mais évidemment ça ne fonctionne pas. Comme puis-je procéder pour obtenir "tout ce qui n'est pas href" et "tout ce qui n'est pas src" ?

Merci beaucoup.

**rawsrc** · 10/12/2011, 16h17

Bonjour,

Quelque chose comme ça irait ? :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
<?php
 
$a = '<a class="link" href="hrefA"><img id="truc" src="srcImg" /></a>';
$pattern = '/<a.*href=(["|\'].*["|\']).*><img.*src=(["|\'].*["|\']).*\/><\/a>/ui';
$b = preg_match($pattern, $a, $matches);
 
?>

**ebola** · 10/12/2011, 16h25

Salut,

J'ai essayé avec des .*, mais cela ne semble pas fonctionner parfaitement. C'est pour ça que je voulais savoir s'il existe un moyen de faire "tout ce qui n'est pas src", pour être sur qu'il s’arrête au bon endroit.

**rawsrc** · 10/12/2011, 16h35

Envoyé par ebola

Salut,

J'ai essayé avec des .*, mais cela ne semble pas fonctionner parfaitement. C'est pour ça que je voulais savoir s'il existe un moyen de faire "tout ce qui n'est pas src", pour être sur qu'il s’arrête au bon endroit.

Ah bon chez moi j'obtiens bien

Code php :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$matches[1] = "hrefA";
$matches[2] = "srcImg";

Parsage d'urls complexes

Langage PHP

Discussions similaires

Partager

Partager