IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

[Stratégie] Parsing HTML et récupération de données


Sujet :

Java

  1. #1
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Février 2008
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 64
    Points : 34
    Points
    34
    Par défaut [Stratégie] Parsing HTML et récupération de données
    Bonsoir à tous.
    Je bosse sur un projet de reprise de données d'un site web et je me trouve confronté à un problème de récupération des données.
    Les fichiers étant en HTML et les données étant parfois disposées aléatoirement, je souhaiterais travailler par l'intermédiaire de chemins XPATH.
    Mais un problème se pose car les fichiers HTML ont des balises non fermantes.
    Pour cela je pensais utiliser Mozilla HTML Parser mais des librairies posent problème... De plus, étant débutant en java, je suis relativement perdu...

    Néanmois, meme avec un parser efficace la récupération des données risque d'être délicate... Quelqu'un aurait-il déjà travaillé sur un sujet similaire ?

    Peu habitué du forum, je tiens à dire que j'ai essayé de trouver quelque chose mais cela fait quelques jours que je stagne et que je ne sais pas du tout comment partir, donc si quelqu'un avait des pistes, ça m'aiderait bien

    Merci d'avance !

  2. #2
    Modérateur
    Avatar de dinobogan
    Homme Profil pro
    ingénieur
    Inscrit en
    Juin 2007
    Messages
    4 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France

    Informations professionnelles :
    Activité : ingénieur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2007
    Messages : 4 073
    Points : 7 163
    Points
    7 163
    Par défaut
    Oui, j'ai déjà fait quelque chose de similaire. C'était un bot pour un browser game. Puisque tu as du HTML, par définition sans grand rapport avec la propreté des tags du XML, il est assez délicat d'utiliser la syntaxe HTML d'une manière simple.
    Ma méthode consistait tout simplement à découper les chaînes en fonction des mots clés de la page. Je ne m'appuyais pas sur la syntaxe HTML, considérant que la page était uniquement un ensemble de mots fixes ou variables.

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    73
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mai 2008
    Messages : 73
    Points : 87
    Points
    87
    Par défaut
    Comme le dit dinobogan, on peut utiliser des recherches de chaines dans le code HTML récupéré (via des expressions régulières ou non ...)
    C'est plutôt facile à mettre en œuvre pour une récupération peu élevée d'informations. Je trouve par contre que ça devient vite "lourd" si tu dois parser énormément de pages.

    Tu peux aussi utiliser des parseurs HTML qui supportent le HTML mal formé.
    Personnellement, j'utilise Jericho, qui est un parseur simple à comprendre et à mettre en place (ajout d'un jar dans le classpath). Beaucoup utilisent aussi NekoHTML.

    Tu peux en trouver d'autres ici : http://java-source.net/open-source/html-parsers

    Pour cela je pensais utiliser Mozilla HTML Parser mais des librairies posent problème.
    Quel est le problème exact?

  4. #4
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Février 2008
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 64
    Points : 34
    Points
    34
    Par défaut
    Merci pour vos réponses !
    Désolé réponse tardive de mon problème !

    Je l'ai résolu tout seul

  5. #5
    Membre régulier
    Profil pro
    Inscrit en
    Avril 2009
    Messages
    158
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2009
    Messages : 158
    Points : 80
    Points
    80
    Par défaut solution?
    Bonjour,

    SVP, est ce que vous pouvez nous dire comment vous avez pu résoudre votre problème.

    Merci.

    Citation Envoyé par Stormy31 Voir le message
    Merci pour vos réponses !
    Désolé réponse tardive de mon problème !

    Je l'ai résolu tout seul

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Parsing HTML et récupération de données
    Par Stormy31 dans le forum VB.NET
    Réponses: 4
    Dernier message: 14/01/2009, 13h31
  2. Réponses: 3
    Dernier message: 23/10/2007, 15h47
  3. Réponses: 2
    Dernier message: 04/06/2006, 20h11
  4. [HTML][FORMULAIRE] Probleme dans la récupération des données
    Par baddounet dans le forum Balisage (X)HTML et validation W3C
    Réponses: 6
    Dernier message: 15/08/2005, 18h51

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo