Bonjour,
Je voudrais faire un programme en Python pour automatiser l'extraction du texte de certaines pages web et les ajouter à la suite d'un texte préexistant.
Je vise d'abord de réaliser le processus élémentaire suivant. Ensuite, je pourrai complexifier.
Dans la page http://www.boursorama.com/forum/message.phtml?file=354639372&pageForum=1 , je voudrais extraire le texte " tjrs pas de news, imressionnant la communication de cette entreprise" et le coller à la suite d'un texte dans un fichier WordPad.
Le petit programme suivant permet de placer le code HTML de la page web en question dans un objet htmlSource:
>>> import urllib
>>> sock = urllib.urlopen("http://www.boursorama.com/forum/message.phtml?file=354758883&pageForum=1")
>>> htmlSource = sock.read()
>>> sock.close()
>>> print htmlSource
Ensuite, je ne sais plus quoi faire.
Existe-t-il un module Python permettant de transférer le texte de l'objet html Source vers un fichier WordPad ?
Soit dit en passant, je ne sais pas quelle est la nature de l'objet htmlSource. Est-ce un fichier texte ? De quel format ?.....
Existe-il un module Python permettant de manipuler le texte contenu dans un fichier texte, que ce soit htmlSource (si c'est un fichier texte) ou mon fichier WordPad ?
Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent. Du traitement texte quoi: copier/coller, déplacement, effacement, recherche de caractères.... Mais effectué de façon automatisé par un programme Python.
J'ai passé des heures en recherche. J'ai trouvé des références à cStringIO, à xml.sax.saxutils, à xml.dom.minidom ...... Mais je n'arrive pas à comprendre ce que font ces trucs. Je voudrais eviter de passer des heures a essayer de comprendre ce que fait tel ou tel module et m'apercevoir que cela ne me servira a rien. Je n'ai trouve nulle part de descriptif clair des modules Python.
Merci pour tout tuyau, indication, aide ....
Partager