IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

parser une page html avec perl


Sujet :

Langage Perl

  1. #1
    Candidat au Club
    Inscrit en
    Mars 2009
    Messages
    4
    Détails du profil
    Informations forums :
    Inscription : Mars 2009
    Messages : 4
    Points : 3
    Points
    3
    Par défaut parser une page html avec perl
    Bonjour,
    mon probleme consiste à convertir une page html en fichier texte pour pouvoir recuperer le texte de cette page.
    jusqu'a mnt j'arrive a convertir cette page en fichier xml ke j'enregistre sous format ".txt",
    et je recupere des les lignes voila le script que j'utilise:

    # file: htmlToXml.pl

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    use chilkat; 
     
    # Perl script to convert HTML files to well-formed XML 
     
    $htmlConv = new chilkat::CkHtmlToXml(); 
    $success = $htmlConv->UnlockComponent("anything for 30-day trial"); 
    if (! $success) { 
    print "component is locked!\n"; 
    exit; 
    } 
     
    $htmlConv->ConvertFile("test.html","test1.txt"); 
    $i=0; 
    open (F, "test1.txt") || die "Problème pour ouvrir"; 
    while (<F>) { 
    if($_ =~ /<text>(.+)<\/text>*/) 
    { 
     
    print "$1 \n"; 
    } 
     
     
    } 
    close F;
    cependant je n'arrive pas à recuperer les paragraphe je pense ke parske dans mon script je precise ke la ligne à afficher doit commencer par la balise <text> .

    est ce ke kelk un peut m aider je suis vraiment bloqué,merci d'avance

  2. #2
    Membre éclairé
    Profil pro
    Assistant recherche bioinformatique
    Inscrit en
    Novembre 2007
    Messages
    877
    Détails du profil
    Informations personnelles :
    Localisation : Canada

    Informations professionnelles :
    Activité : Assistant recherche bioinformatique

    Informations forums :
    Inscription : Novembre 2007
    Messages : 877
    Points : 835
    Points
    835
    Par défaut
    Salut,
    Je ne comprends rien :
    pourquoi transformes tu un fichier html en xml, pour ensuite le re-parcourir et récuperer le texte ? Peut etre que quelques extraits de ces données, bien choisis, pourraient eclairer ma lanterne.
    Je te rappelle que le html est deja du xml.
    Concernant ton regex, il ne stipule pas que la ligne doive commencer par <text>
    Z.

    PS : comment arrives-tu a écrire sans aucune faute d'orthographe, mais transformer tous les 'que' en 'ke' ?

Discussions similaires

  1. Parser une page HTML avec Simple html dom parser
    Par thelover2fr dans le forum EDI, CMS, Outils, Scripts et API
    Réponses: 3
    Dernier message: 24/05/2012, 13h26
  2. parser une page HTML avec re.search()
    Par Mydriaze dans le forum Général Python
    Réponses: 9
    Dernier message: 07/10/2008, 14h30
  3. Parser une page HTML avec du PHP
    Par Richard_Rahl dans le forum Langage
    Réponses: 9
    Dernier message: 19/08/2008, 15h36
  4. Réponses: 7
    Dernier message: 14/09/2005, 10h50

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo