IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Web Perl Discussion :

Extraction de texte de pages web?


Sujet :

Web Perl

  1. #1
    Membre habitué Avatar de VinnieMc
    Inscrit en
    Décembre 2005
    Messages
    208
    Détails du profil
    Informations forums :
    Inscription : Décembre 2005
    Messages : 208
    Points : 161
    Points
    161
    Par défaut Extraction de texte de pages web?
    Bonjour, je fais de l'arabe depuis deux ans et j'aimerais maintenant constituer un petit corpus de textes(surtout journalistiques).Mon but serais d' extraire le texte des pages web du site d' aljazeera (www.aljazeera.net) par exemple, à l'aide d'un script en Perl, malheureusement je ne trouve aucun tutoriel à ce sujet.C' est pourquoi je sollicite votre aide, si qqun dipose d'un tutoriel ou d'un script j'en serais très ravis.
    D'avance merci.

  2. #2
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    Regarde sur ce site les articles sur LWP.
    Pour aller plus loin, tu peux aussi regarder les articles sur WWW::Mechanize.

    Bon Perl !

    --
    Jedaï

  3. #3
    Membre habitué Avatar de VinnieMc
    Inscrit en
    Décembre 2005
    Messages
    208
    Détails du profil
    Informations forums :
    Inscription : Décembre 2005
    Messages : 208
    Points : 161
    Points
    161
    Par défaut
    Salut Jedai, merci pour les liens.
    Problème, lorsque j'éxécute le script ci-dessous j'obtient le code source(HTML) de la page et non le texte de la page en elle même:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
     
    #C:\bin\perl -w
     
    use LWP::Simple;
    	use LWP::UserAgent;
    	use HTTP::Request;
    	use HTTP::Response;
    	use HTML::LinkExtor;
     
    open(OUTPUT,"> page.txt");
     
    my $URL = "http://www.aljazeera.net/";
     
    print (OUTPUT $contents) if $contents = get($URL);
     
    close (OUTPUT);
    Une solution?

  4. #4
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    Oui bien sûr... Ca ne te paraît pas normal ? Après tout tu pourrais avoir besoin du code HTML, LWP n'en sait rien, son rôle se borne à dialoguer par le protocole HTTP.
    Lis l'article 2 sur LWP dans le lien que j'ai donné, et tu devrais avoir ta réponse à la fin.

    --
    Jedaï

  5. #5
    Membre habitué Avatar de VinnieMc
    Inscrit en
    Décembre 2005
    Messages
    208
    Détails du profil
    Informations forums :
    Inscription : Décembre 2005
    Messages : 208
    Points : 161
    Points
    161
    Par défaut
    Merci beaucoup Jedai.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Freeware/script d'extraction d'URLs de pages web
    Par Invité dans le forum Internet
    Réponses: 2
    Dernier message: 22/09/2011, 11h56
  2. Récupération de texte de page web en masse
    Par LeChatDev dans le forum Réseau/Web
    Réponses: 1
    Dernier message: 04/04/2011, 15h52
  3. Envoi d'une variable texte vers page web
    Par claire34 dans le forum Langage
    Réponses: 4
    Dernier message: 11/11/2010, 14h54
  4. Extraction données dans une page WEB
    Par phibrunet dans le forum Excel
    Réponses: 1
    Dernier message: 19/02/2008, 11h26
  5. [Système] Selection de text dans page web
    Par biggione dans le forum Langage
    Réponses: 3
    Dernier message: 02/03/2007, 16h35

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo