HTML::Parser vs HTML::PullParser vs HTML::TokePaser

**epiphyte** · 17/04/2007, 15h56

Voici mon souci brievement...
Je voudrais extraire le titre d'une page web en ligne.
Me semble que les 3 modules cités en titre peuvent me faire ca mais lequel choisir, lequel est le plus adapté?
Je me demandais si il ne serait pas plus simple de faire une bete regexp mais bon ...
Merci!

**djibril** · 17/04/2007, 16h32

c'est sur que si tu souhaite uniquement le titre d'une page, une regex suffit

**Jedai** · 17/04/2007, 16h34

Envoyé par epiphyte

Voici mon souci brievement...
Je voudrais extraire le titre d'une page web en ligne.
Me semble que les 3 modules cités en titre peuvent me faire ca mais lequel choisir, lequel est le plus adapté?
Je me demandais si il ne serait pas plus simple de faire une bete regexp mais bon ...
Merci!

Ben à vrai dire pour parser du HTML d'habitude je conseille de ne pas tenter le diable en utilisant des regex, mais pour un besoin aussi simple que d'extraire le titre de la page (tu parles bien de celui qui est entre les balises <title> ?), une regex peut bien suffire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

m{<title[^>]*> (.*?) </title}ixs

Quand au choix d'un Parser HTML, il dépend beaucoup de tes goûts, chacun d'entre eux présente sa propre interface, HTML:: Parser est basé sur des callbacks, HTML:: PullParser fournit une chaîne de token, et HTML::TokeParser est un HTML:: PullParser avec des défauts pratique dans la plupart des cas (sauf exception, il est plus simple d'utiliser TokeParser que PullParser).

--
Jedaï

**epiphyte** · 17/04/2007, 16h51

Envoyé par Jedai

Ben à vrai dire pour parser du HTML d'habitude je conseille de ne pas tenter le diable en utilisant des regex, mais pour un besoin aussi simple que d'extraire le titre de la page (tu parles bien de celui qui est entre les balises <title> ?), une regex peut bien suffire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

m{<title[^>]*> (.*?) </title}ixs

Jedaï

oK! Merci bien! un truc m'echape dans ta regexp, je ne vois pas pourquoi tu n'as pas simplement fais:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

m{<title> (.*?) </title}ixs

**Jedai** · 17/04/2007, 17h34

Envoyé par epiphyte

oK! Merci bien! un truc m'echape dans ta regexp, je ne vois pas pourquoi tu n'as pas simplement fais:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

m{<title> (.*?) </title}ixs

Je me suis posé la question (il n'y a aucun attribut qu'on puisse accrocher à une balise title à ma connaissance), mais autant minimiser au maximum (sic) la fragilité de la regex, on peut toujours imaginer qu'un utilisateur laisse traîner un espace dans sa balise title...

Vu le faible effort supplémentaire que cela représente, j'ai décidé de me prémunir contre ce risque. Il est vrai que cela pèse un peu sur la lisibilité de la regex, à toi de voir.
De même, n'oublie pas de faire subir un trim() (programmé de tes mains) à ton titre après sa récupération, car pas mal de page le mette sur une ligne par lui-même (il y aura donc des sauts de ligne intempestif dans la valeur récupérée).

--
Jedaï

HTML::Parser vs HTML::PullParser vs HTML::TokePaser

Web Perl

Discussions similaires

Partager

Partager