Traitement de texte avec Python

**eyquem** · 04/02/2007, 13h16

Bonjour,

Je voudrais faire un programme en Python pour automatiser l'extraction du texte de certaines pages web et les ajouter à la suite d'un texte préexistant.

Je vise d'abord de réaliser le processus élémentaire suivant. Ensuite, je pourrai complexifier.

Dans la page http://www.boursorama.com/forum/message.phtml?file=354639372&pageForum=1 , je voudrais extraire le texte " tjrs pas de news, imressionnant la communication de cette entreprise" et le coller à la suite d'un texte dans un fichier WordPad.

Le petit programme suivant permet de placer le code HTML de la page web en question dans un objet htmlSource:
>>> import urllib
>>> sock = urllib.urlopen("http://www.boursorama.com/forum/message.phtml?file=354758883&pageForum=1")
>>> htmlSource = sock.read()
>>> sock.close()
>>> print htmlSource

Ensuite, je ne sais plus quoi faire.

Existe-t-il un module Python permettant de transférer le texte de l'objet html Source vers un fichier WordPad ?
Soit dit en passant, je ne sais pas quelle est la nature de l'objet htmlSource. Est-ce un fichier texte ? De quel format ?.....

Existe-il un module Python permettant de manipuler le texte contenu dans un fichier texte, que ce soit htmlSource (si c'est un fichier texte) ou mon fichier WordPad ?
Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent. Du traitement texte quoi: copier/coller, déplacement, effacement, recherche de caractères.... Mais effectué de façon automatisé par un programme Python.

J'ai passé des heures en recherche. J'ai trouvé des références à cStringIO, à xml.sax.saxutils, à xml.dom.minidom ...... Mais je n'arrive pas à comprendre ce que font ces trucs. Je voudrais eviter de passer des heures a essayer de comprendre ce que fait tel ou tel module et m'apercevoir que cela ne me servira a rien. Je n'ai trouve nulle part de descriptif clair des modules Python.

Merci pour tout tuyau, indication, aide ....

**pierjean** · 05/02/2007, 14h36

Bonjour,
Vas-voir du coté de sgmllib (permet de décomposer le html avec SGMLParser) et des expressions régulières (module re, pour le traitement du texte).
htmlSource n'est pas un fichier texte, c'est une chaine.
Un "fichier wordpad "? Je crois que wordpad utilise par défaut le RTF. Je te conseille du texte simple (.txt), ou reconstruis une page html.

**oiffrig** · 05/02/2007, 19h06

Ce que tu obtiens est le code HTML de la page, et comme a dit pierjean, il sera plus simple d'enregistrer dans un fichier texte "brut"
Pour y faire des recherches, tu peux utiliser les regex

**jbjweb** · 07/02/2007, 10h48

Essaie la fonction striptags du module scrape, je pense que c'est ce qu'il te conviendrais le mieux.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
striptags(html)
    Strip HTML tags from the given string, yielding line breaks for DIV,
    BR, or TR tags and blank lines for P, TABLE, or FORM tags.

http://zesty.ca/python/

Traitement de texte avec Python

Python

Discussions similaires

Partager

Partager