Extraire le contenu de balises HTML d'une page WEB

**sephyroth69** · 16/01/2010, 15h36

Bonjour à tous,

J'ai fait beaucoup de recherches à ce sujet sur le web et différents forums, et impossible de trouver la moindre recommandation précise sur comment récupérer le contenu de pages HTML.
Dans l'absolu, le plus cool d'utilisation serait soit de générer un tableau directement soit de générer un flux XML qui soit ensuite disponible pour créer le dit tableau.

Prenons par exemple la page sur la canneberge de wikipedia (premier truc qui me vient à l'esprit ) : [ame]http://fr.wikipedia.org/wiki/Canneberge[/ame]

Si on observe le code source, noyé dans toutes les balise,s se trouvent des balises de tableau permettant de générer le tableau de classification sur la droite.
J'aimerais que mon code récupère les informations situées dans ce tableau, mais je n'ai pas la moindre idée de comment commencer.
Je pense qu'un code java est le plus apte à cette tache...
Merci d'avance pour vos réponses.

**yorgh1234** · 20/01/2010, 18h22

Peux tu préciserl'objectif d'une telle démarche?
En gros pourquoi tu veux faire ça?

**sephyroth69** · 21/01/2010, 11h14

Mon but est de parcourir plusieurs pages de données pour en faire une synthèse sur une seule et unique page, et probablement un peu de traitement statistique derrière.
A noter que c'est pour une utilisation strictement personnelle, non pas pour allier spolier du contenu sur un site et le remettre à ma sauce.

**yorgh1234** · 21/01/2010, 21h32

Trouvé sur le forum :
A voir avec elle Si ça peut t'aider...

Extraire le contenu de balises HTML d'une page WEB

Servlets/JSP Java

Discussions similaires

Partager

Partager