Récupération du titre d'une image

**projetGTR** · 11/10/2007, 11h31

Bonjour,
Voila j'utilise le module HTML::Parser pour extraire les informations de certain site, notament lemonde.fr...
Mon problème est que sur le site lemonde.fr la 1er lettre de chaque article est une image de la lettre. Il m'est donc impossible de la récupérer avec le module HTML::Parser qui supprime toutes les balises html qu'il croise
ex :
http://www.lemonde.fr/web/article/0,...-965349,0.html
(voir le A)

J'aimerais pouvoir récuperer cette image ou au moins son titre qui correspond à la lettre que l'image remplace, ce qui me suffirait pour completer l'article que je stock ...
En d'autre mot, dans l'article : l'image est : A.gif, j'aimerais pouvoir en extraire le A)
Avez vous une petite idée ?
j'ai entendu parler de perfectCR qqun l'a deja utilisé ?

**iblis** · 11/10/2007, 17h36

HTML Parser permet tout à fait de faire ce que tu demandes – et même bien plus, ce n'est pas juste un outil pour enlever les balises

.

Je ne l'utilise pas souvent mais quelque chose comme ça devrait marcher (je lis l'entrée standard)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
#!/usr/bin/perl -w
use strict;
use HTML::Parser;
 
my $parser = HTML::Parser->new( api_version => 3,
                        start_h     => [\&start,"tagname, attr, attr"],
                        );
 
my @letters;
sub start {
    my ($tag, $attr) = @_;
    if ($tag =~ /^img$/ and defined $attr->{'src'}) {
        if ($attr->{'src'} =~ m!http://medias.lemonde.fr/mmpub/img/let/!) {
            push @letters, $attr->{'alt'};
        }
    }
}
 
while (<>) {
    $parser->parse($_);
}
$parser->eof;    
 
print @letters;

Rien de bien difficile à comprendre si tu connais le principe des call backs utilisés par HTML Parser. Si tu coinces, dis-le, on t'expliquera.

PS : Il est vilain, le code du site lemonde.fr

**iblis** · 11/10/2007, 17h48

Oui, ça marche

**projetGTR** · 11/10/2007, 21h07

un trés grand merci, je test ca demain matin

)

**projetGTR** · 12/10/2007, 17h20

Pourrais tu me detailler ce que fait : while (<>), j'avoue ne pas comprendre :s,
quand je teste il me dit :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Can't open http://www.lemonde.fr/web/article/0,1-0@2-823448,36-966120@51-966122, 0.html: No such file or directory at extractionLeMondeM.pl line 102.

donc apparement il teste l'URL et non pas le contenu, c'est pour ca je cherche à comprendre ta ligne ci-dessus

Sinon tres jolie utilsation du module HTML:

arser, c'est finalement un module que j'utilise à 30% guere plus

**iblis** · 13/10/2007, 00h07

Bonsoir. Désolé, j'ai cru que tu étais plutôt à l'aise avec Perl, donc je ne t'ai montré que l'essentiel. Autant pour moi.

Dans l'état actuel le script lit l'entrée standard. C'est le sens du while (<>). Celui-ci lit soit les arguments en ligne de commande qu'il interprète comme des fichiers que perl ouvre et dont chaque ligne est lue par le while (<>) et passée dans la variable $_ ; soit, si aucun argument n'est passé en ligne de commande, l'entrée standard (dont chaque ligne là encore est passée à $_).

Donc tel qu'il est, tu dois lancer le script de test de la manière suivante:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$ perl testscript.pl lemonde.html     # en supposant que lemonde.html contient ta page

Tu peux aussi rediriger la sortie de wget avec un tuyau (pipe):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$ wget -q -O - http://www.lemonde.fr/web/article/0,1-0@2-3236,36-965782@51-965874,0.html | perl testscript.pl  # là c'est un autre article du monde.fr

Si tu ne veux pas lire à partir d'un fichier, fait comme cela:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
#!/usr/bin/perl -w
use strict;
use HTML::Parser;
use LWP::Simple;
 
my $url = shift;
$url = 'http://www.lemonde.fr/web/article/0,1-0@2-3214,36-965235@51-965349,0.html'
    if not defined $url;
 
my $page = get ($url)
    or die "Could not get $url: $!\n";
 
my $parser = HTML::Parser->new( api_version => 3,
                        start_h     => [\&start,"tagname, attr, attr"],
                        );
 
my @letters;
sub start {
my ($tag, $attr) = @_;
    if ($tag =~ /^img$/ and defined $attr->{'src'}) {
        if ($attr->{'src'} =~ m!http://medias.lemonde.fr/mmpub/img/let/!) {
            push @letters, $attr->{'alt'};
        }
    }
}
 
$parser->parse($page);
$parser->eof;    
 
print @letters, "\n";

Ta question ne portant pas sur la capture de la page mais simplement sur le traitement à partir d'une page déjà capturée, je n'ai pas voulu présupposer dans mon premier exemple, de la manière dont tu avais la page et ai opté pour le passage le plus simple et le plus courant des données en lisant l'entrée standard ou un fichier passé en argument de ligne de commande. L'essentiel ici à mon avis est de comprendre le principe des callbacks et des event handlers. Là tu peux adapter le script à tes besoins (je n'ai pas vérifié que mon critère fonctionne sur toutes les pages).

Avec <>, là, tu as fait d'une pierre deux coups.

(Hum, j'espère avoir été clair

)

**projetGTR** · 15/10/2007, 16h51

impeccable, un grand merci pour ce petit guilde, ca m'a été d'une aide précieuse

Récupération du titre d'une image

Modules Perl

Discussions similaires

Partager

Partager