[Stratégie] Parsing HTML et récupération de données

**Stormy31** · 14/01/2009, 09h12

Bonsoir à tous.
Je bosse sur un projet de reprise de données d'un site web et je me trouve confronté à un problème de récupération des données.
Les fichiers étant en HTML et les données étant parfois disposées aléatoirement, je souhaiterais travailler par l'intermédiaire de chemins XPATH.
Mais un problème se pose car les fichiers HTML ont des balises non fermantes.
Pour cela je pensais utiliser Mozilla HTML Parser mais des librairies posent problème... De plus, étant débutant en java, je suis relativement perdu...

Néanmois, meme avec un parser efficace la récupération des données risque d'être délicate... Quelqu'un aurait-il déjà travaillé sur un sujet similaire ?

Peu habitué du forum, je tiens à dire que j'ai essayé de trouver quelque chose mais cela fait quelques jours que je stagne et que je ne sais pas du tout comment partir, donc si quelqu'un avait des pistes, ça m'aiderait bien

Merci d'avance !

**dinobogan** · 14/01/2009, 11h22

Oui, j'ai déjà fait quelque chose de similaire. C'était un bot pour un browser game. Puisque tu as du HTML, par définition sans grand rapport avec la propreté des tags du XML, il est assez délicat d'utiliser la syntaxe HTML d'une manière simple.
Ma méthode consistait tout simplement à découper les chaînes en fonction des mots clés de la page. Je ne m'appuyais pas sur la syntaxe HTML, considérant que la page était uniquement un ensemble de mots fixes ou variables.

**Crossnine** · 20/01/2009, 16h59

Comme le dit dinobogan, on peut utiliser des recherches de chaines dans le code HTML récupéré (via des expressions régulières ou non ...)
C'est plutôt facile à mettre en œuvre pour une récupération peu élevée d'informations. Je trouve par contre que ça devient vite "lourd" si tu dois parser énormément de pages.

Tu peux aussi utiliser des parseurs HTML qui supportent le HTML mal formé.
Personnellement, j'utilise Jericho, qui est un parseur simple à comprendre et à mettre en place (ajout d'un jar dans le classpath). Beaucoup utilisent aussi NekoHTML.

Tu peux en trouver d'autres ici : http://java-source.net/open-source/html-parsers

Pour cela je pensais utiliser Mozilla HTML Parser mais des librairies posent problème.

Quel est le problème exact?

**Stormy31** · 29/01/2009, 13h34

Merci pour vos réponses !
Désolé réponse tardive de mon problème !

Je l'ai résolu tout seul

**lahmar.abdel1** · 28/04/2009, 09h50

Bonjour,

SVP, est ce que vous pouvez nous dire comment vous avez pu résoudre votre problème.

Merci.

Envoyé par Stormy31

Merci pour vos réponses !
Désolé réponse tardive de mon problème !

Je l'ai résolu tout seul

[Stratégie] Parsing HTML et récupération de données

Java

Discussions similaires

Partager

Partager