Parser une page html, quel outil ?

**ggnore** · 15/11/2006, 11h15

bonjour.

Je veux isoler des données dans une page html... la parser en somme.

Voici un extrait de la page :

<a href="http://support.microsoft.com/kb/922616/en-us" target="_blank">KB922616</a>
Vulnerability in HTML Help could allow remote code execution<a href="http://www.microsoft.com/downloads/details.aspx?FamilyID=34ebe5d3-40c9-41dc-aaff-64608d3ac7b1&DisplayLang=en" target="_blank">Download</a>
700 KB (August 7, 2006)Switches: KB922616.exe /passive /norestart /quiet*** NEW ***

Je veux isoler les 2 urls ainsi que la section switches. Tout ça tient en une seule ligne.

Mes possibilités sont sed, awk, perl et sûrement d'autres.
Je les connais et les ai déjà utilisés avec succés mais je ne les maitrise pas.

Réussir à maîtriser un seul de ces outils est long, et j'ai peur de m'embarquer dans une solution et de passer beaucoup de temps pour une solution qui ne serait pas la plus logique/simple.

Merci d'avance pour vos conseils éclairés.

**ggnore** · 15/11/2006, 11h57

Je m'oriente doucement vers la HTML::parser en perl.
Va falloir apprendre le perl

pas gagnée cette histoire.

**keikoz** · 15/11/2006, 12h35

Je pense que ça dépend du contexte, mais effectivmeent perl fera parfaitement l'affaire. Ça s'apprend relativement vite, je trouve. La faq d'ici-même est très bien faite.

Tu peux toujours te dire qu'apprendre perl ne sera pas du temps perdu puisqu'il te permettra de faire de très nombreuses autres choses

**ggnore** · 15/11/2006, 12h57

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 $ lynx -dump minitest.html
 
   [1]KB922616 Vulnerability in HTML Help could allow remote code
   execution[2]Download 700 KB (August 7, 2006)Switches: KB922616.exe
   /passive /norestart /quiet*** NEW ***
 
Références
 
   1. http://support.microsoft.com/kb/922616/en-us
   2. http://www.microsoft.com/downloads/details.aspx?FamilyID=34ebe5d3-40c9-41dc-aaff-64608d3ac7b1&DisplayLang=en

à coups de sed, je vais pouvoir isoler les liens sans trop de problèmes...

Par ailleurs j'ai un code perl qui me permet de ne récupérer que le texte :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
$ cat parse.pl
#!/usr/bin/perl -w
 
use strict;
use HTML::Parser ();
 
sub text_handler { # Ordinary text
print @_;
}
 
my $p = HTML::Parser->new(api_version => 3);
$p->handler( text => \&text_handler, "dtext");
$p->parse_file(shift || "-") || die $!;

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
$ ./parse.pl minitest.html
KB922616
Vulnerability in HTML Help could allow remote code executionDownload
700 KB (August 7, 2006)Switches: KB922616.exe /passive /norestart /quiet*** NEW ***

Le seul truc c'est qu'en perl, je récupère toute une ligne pas très exploitable... En même temps si je savais coder en perl ça arriverait pas

ça sent l'usine à gaz mon histoire

**ripat** · 15/11/2006, 19h42

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

grep -o '<a href="[^"]*' ton.fichier | sed s/'<a href="'//g

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

grep -o 'Switches: [^<]*' ton.fichier | sed s/'Switches: '//g

Optimisation possible.

**ggnore** · 28/11/2006, 11h48

Envoyé par ripat

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

grep -o '<a href="[^"]*' ton.fichier | sed s/'<a href="'//g

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

grep -o 'Switches: [^<]*' ton.fichier | sed s/'Switches: '//g

Optimisation possible.

Mille Mercis c'est trèès efficace !

Parser une page html, quel outil ?

Linux

Discussions similaires

Partager

Partager