Parsing HTML et récupération de données

**Stormy31** · 13/01/2009, 20h33

Bonsoir à tous.
Je bosse sur un projet de reprise de données d'un site web et je me trouve confronté à un problème de récupération des données.
Les fichiers étant en HTML et les données étant parfois disposées aléatoirement, je souhaiterais travailler par l'intermédiaire de chemins XPATH.
Mais un problème se pose car les fichiers HTML ont des balises non fermantes. Je viens de récupérer un code source fourni sur le site, je le testerai demain.

Néanmois, meme avec un parser efficace la récupération des données risque d'être délicate... Quelqu'un aurait-il déjà travaillé sur un sujet similaire en vb.net ou éventuellement dans un autre langage (éventuellement java).

Peu habitué du forum, je tiens à dire que j'ai essayé de trouver quelque chose mais cela fait quelques jours que je stagne et que je ne sais pas du tout comment partir, donc si quelqu'un avait des pistes, ça m'aiderait bien

Merci d'avance !

**tomlev** · 13/01/2009, 20h52

Pour XPath, à mon avis tu peux oublier tout de suite... les documents HTML ne sont pas structurés comme des fichiers XML (même une page en XHTML strict n'est pas un document XML valide)

Le seul cas où tu pourrais extraire des données, c'est en connaissant le modèle exact des pages, en supposant qu'elles aient bien toutes la même structure

**Stormy31** · 14/01/2009, 00h28

Les pages ont toutes la même structure oui... Les données sont contenues dans des tableaux de 4 colones avec la première et la troisième colonne toujours vides. Les 2 et 4 contiennent les données: en alternance une image et une légende...

Quant au chemin XPATH je comptais m'en servir quand je récupère le chemin via XPATH Builder de Firefox...
Je comptais me servir d'une convertir XHTML des pages mais je ne vois pas comment l'automatiser... J'ai PSPAD mais vu le nombre important de fichiers ça va être vite galère ...

**Gold Bug** · 14/01/2009, 09h46

Envoyé par Stormy31

Je comptais me servir d'une convertir XHTML des pages mais je ne vois pas comment l'automatiser...

Cela vaut-il vraiment le coup d'automatiser ?
C'est à évaluer en fonction du volume, mais des fois faire à la main c'est pénible mais ça marche très bien

**Stormy31** · 14/01/2009, 13h31

On va dire que j'ai environ 1000 pages à visiter... Donc l'automatisation est recommandée surtout vue la petite contrainte de temps...

Je vais m'orienter sur un appel de Tidy pour le parsing... J'ai quelques soucis pour l'appel du .exe mais je vais regarder ça et si j'ai quelques soucis je demanderais de l'aide sur le forum

Parsing HTML et récupération de données

VB.NET

Discussions similaires

Partager

Partager