parser une page html avec perl

**fedodido** · 15/03/2009, 22h47

Bonjour,
mon probleme consiste à convertir une page html en fichier texte pour pouvoir recuperer le texte de cette page.
jusqu'a mnt j'arrive a convertir cette page en fichier xml ke j'enregistre sous format ".txt",
et je recupere des les lignes voila le script que j'utilise:

# file: htmlToXml.pl

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
use chilkat; 
 
# Perl script to convert HTML files to well-formed XML 
 
$htmlConv = new chilkat::CkHtmlToXml(); 
$success = $htmlConv->UnlockComponent("anything for 30-day trial"); 
if (! $success) { 
print "component is locked!\n"; 
exit; 
} 
 
$htmlConv->ConvertFile("test.html","test1.txt"); 
$i=0; 
open (F, "test1.txt") || die "Problème pour ouvrir"; 
while (<F>) { 
if($_ =~ /<text>(.+)<\/text>*/) 
{ 
 
print "$1 \n"; 
} 
 
 
} 
close F;

cependant je n'arrive pas à recuperer les paragraphe je pense ke parske dans mon script je precise ke la ligne à afficher doit commencer par la balise <text> .

est ce ke kelk un peut m aider je suis vraiment bloqué,merci d'avance

**Zwiter** · 16/03/2009, 14h36

Salut,
Je ne comprends rien :
pourquoi transformes tu un fichier html en xml, pour ensuite le re-parcourir et récuperer le texte ? Peut etre que quelques extraits de ces données, bien choisis, pourraient eclairer ma lanterne.
Je te rappelle que le html est deja du xml.
Concernant ton regex, il ne stipule pas que la ligne doive commencer par <text>
Z.

PS : comment arrives-tu a écrire sans aucune faute d'orthographe, mais transformer tous les 'que' en 'ke' ?

parser une page html avec perl

Langage Perl

Discussions similaires

Partager

Partager