IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Parser une page html, problème balise


Sujet :

Python

  1. #1
    Futur Membre du Club
    Profil pro
    Inscrit en
    Novembre 2008
    Messages
    6
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2008
    Messages : 6
    Points : 5
    Points
    5
    Par défaut Parser une page html, problème balise
    Bonjour à tous,
    je ne suis pas sûre de l’endroit où doit être ce message, mais bon je tente quand même
    alors voilà, je voudrai récupérer le texte de cette page

    du coup après avoir essayé plusiuers solution (dont beautiful soup), j'ai décidé d'utiliser simplement les regex.
    mon problème, est qu'avec le code suivant, il ne me prend que certain paragraphe :/

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    import re, urllib
    fichierDest=open ("corpusViePub.txt","a")
    htmlSource = urllib.urlopen("http://discours.vie-publique.fr/notices/083001590.html").read()
    linksList = re.findall('<p>.*?<\p>',htmlSource)
    for link in linksList:
    	print str(link)
    	fichierDest.write(str(link.replace('<br />','\n').replace('<p>','\n').replace('</p>',''))) 
    fichierDest.close()
    par exemple dans le code html j'ai :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    <p>Monsieur le Président,<br />Mesdames et messieurs,</p>
    <p><br />Le 23 janvier dernier, il y a quasiment quatre mois, j'ai confié à Monsieur Jean...</p>
    <p>e rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a per...</p>
    le script python ne me renvoie que :
    Monsieur le Président,
    Mesdames et messieurs,

    Le rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a permis d'aboutir à des conclusions importantes. Avant d'entrer dans le vif du sujet, je veux donc, cher Jean Mounet, vous remercier très chaleureusement pour la rigueur et la qualité du travail accompli sous votre direction.

    Bref, il me zappe le premier paragraphe ...
    quelqu'un aurait une idée ???
    merci d'avance

  2. #2
    Membre à l'essai
    Inscrit en
    Mars 2009
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Mars 2009
    Messages : 8
    Points : 12
    Points
    12
    Par défaut
    peut être à cause de l'expression régulière :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    re.findall('<p>.*?<\p>',htmlSource)
    qui devrait plutôt être :

  3. #3
    Futur Membre du Club
    Profil pro
    Inscrit en
    Novembre 2008
    Messages
    6
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2008
    Messages : 6
    Points : 5
    Points
    5
    Par défaut
    Bonjour Thetopic...
    quand j'ai lu ton message je me suis dis si c'est ça je me pends...
    et ben j'ai plus qu'à aller chercher la corde
    ça fait des jours que je tourne en rond à cause de ça

    encore merci

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Parser une page HTML avec du PHP
    Par Richard_Rahl dans le forum Langage
    Réponses: 9
    Dernier message: 19/08/2008, 15h36
  2. Parser une page html ?
    Par SimoX1 dans le forum Général JavaScript
    Réponses: 4
    Dernier message: 03/12/2006, 19h10
  3. Parser une page Html pour récuperer valeur
    Par Andry dans le forum Delphi
    Réponses: 5
    Dernier message: 01/12/2006, 17h10
  4. Parser une page html, quel outil ?
    Par ggnore dans le forum Linux
    Réponses: 5
    Dernier message: 28/11/2006, 11h48
  5. parser une page HTML pour en retirer de l'info
    Par belakhdarbts10 dans le forum ASP
    Réponses: 1
    Dernier message: 29/10/2006, 18h38

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo