IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

VB.NET Discussion :

Parsing HTML et récupération de données


Sujet :

VB.NET

  1. #1
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Février 2008
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 64
    Points : 34
    Points
    34
    Par défaut Parsing HTML et récupération de données
    Bonsoir à tous.
    Je bosse sur un projet de reprise de données d'un site web et je me trouve confronté à un problème de récupération des données.
    Les fichiers étant en HTML et les données étant parfois disposées aléatoirement, je souhaiterais travailler par l'intermédiaire de chemins XPATH.
    Mais un problème se pose car les fichiers HTML ont des balises non fermantes. Je viens de récupérer un code source fourni sur le site, je le testerai demain.

    Néanmois, meme avec un parser efficace la récupération des données risque d'être délicate... Quelqu'un aurait-il déjà travaillé sur un sujet similaire en vb.net ou éventuellement dans un autre langage (éventuellement java).

    Peu habitué du forum, je tiens à dire que j'ai essayé de trouver quelque chose mais cela fait quelques jours que je stagne et que je ne sais pas du tout comment partir, donc si quelqu'un avait des pistes, ça m'aiderait bien

    Merci d'avance !

  2. #2
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Points : 39 754
    Points
    39 754
    Par défaut
    Pour XPath, à mon avis tu peux oublier tout de suite... les documents HTML ne sont pas structurés comme des fichiers XML (même une page en XHTML strict n'est pas un document XML valide)

    Le seul cas où tu pourrais extraire des données, c'est en connaissant le modèle exact des pages, en supposant qu'elles aient bien toutes la même structure

  3. #3
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Février 2008
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 64
    Points : 34
    Points
    34
    Par défaut
    Les pages ont toutes la même structure oui... Les données sont contenues dans des tableaux de 4 colones avec la première et la troisième colonne toujours vides. Les 2 et 4 contiennent les données: en alternance une image et une légende...

    Quant au chemin XPATH je comptais m'en servir quand je récupère le chemin via XPATH Builder de Firefox...
    Je comptais me servir d'une convertir XHTML des pages mais je ne vois pas comment l'automatiser... J'ai PSPAD mais vu le nombre important de fichiers ça va être vite galère ...

  4. #4
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    256
    Détails du profil
    Informations personnelles :
    Âge : 47

    Informations forums :
    Inscription : Décembre 2008
    Messages : 256
    Points : 311
    Points
    311
    Par défaut
    Citation Envoyé par Stormy31 Voir le message
    Je comptais me servir d'une convertir XHTML des pages mais je ne vois pas comment l'automatiser...
    Cela vaut-il vraiment le coup d'automatiser ?
    C'est à évaluer en fonction du volume, mais des fois faire à la main c'est pénible mais ça marche très bien

  5. #5
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Février 2008
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 64
    Points : 34
    Points
    34
    Par défaut
    On va dire que j'ai environ 1000 pages à visiter... Donc l'automatisation est recommandée surtout vue la petite contrainte de temps...

    Je vais m'orienter sur un appel de Tidy pour le parsing... J'ai quelques soucis pour l'appel du .exe mais je vais regarder ça et si j'ai quelques soucis je demanderais de l'aide sur le forum

Discussions similaires

  1. [Stratégie] Parsing HTML et récupération de données
    Par Stormy31 dans le forum Général Java
    Réponses: 4
    Dernier message: 28/04/2009, 09h50
  2. Réponses: 3
    Dernier message: 23/10/2007, 15h47
  3. Réponses: 2
    Dernier message: 04/06/2006, 20h11
  4. [HTML][FORMULAIRE] Probleme dans la récupération des données
    Par baddounet dans le forum Balisage (X)HTML et validation W3C
    Réponses: 6
    Dernier message: 15/08/2005, 18h51

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo