IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Format d'échange (XML, JSON...) Java Discussion :

Problème avec le format HTML pendant le parsing


Sujet :

Format d'échange (XML, JSON...) Java

  1. #1
    Candidat au Club
    Inscrit en
    Octobre 2006
    Messages
    5
    Détails du profil
    Informations forums :
    Inscription : Octobre 2006
    Messages : 5
    Points : 3
    Points
    3
    Par défaut Problème avec le format HTML pendant le parsing
    Bonjour,
    je travaille sur l'élaboration d'un méta moteur (genre Copernic).
    Le principe consiste à lancer des requêtes auprès de moteurs de recherche, d'obtenir le résultat (à cette étape, le parsing se fait automatiquement) puis de travailler sur les résultats (partie algorithmique), enfin de stocker les résultats dans un document XML.

    Le problème que je rencontre vient des résultats fournis par Google qui emploie des tags pouvant dérouter le parsing. exemple
    Pour le & commercial, le HTML "classique" donne & et google le note &am;
    J'ai essayé de corriger ces problèmes alors je suis tombé sur un NullPointerException

    Ne sachant pas trop ou se trouve le problème, je voudrais déjà savoir s'il existe une méthode pour transformer du texte en HTML et inversement. J'essaye de procéder par étapes.

  2. #2
    Membre éclairé

    Homme Profil pro
    Consultant informatique
    Inscrit en
    Juillet 2002
    Messages
    346
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Consultant informatique

    Informations forums :
    Inscription : Juillet 2002
    Messages : 346
    Points : 737
    Points
    737
    Par défaut
    HEllo,

    Tu as les StringEscapeUtils des commons-lang de Jakarta qui te permet de faire les changement text -> HTML -> text.
    http://jakarta.apache.org/commons/lang/

    Sinon, le pb réside dans le fait, qu'apparement, Google n'utilise pas une sérialisation standard des charactère HTML. Je trouve cela un peut bizzard, peut-être devrait tu vérifier que tu n'as pas fait une erreur quelque part.

    Si c'est réellement le cas, il faut que tu déserialize google toi même. Tu peut utiliser StringUtils des commons-lang de Jakarta pour faire tes remplacement.

  3. #3
    Expert confirmé
    Avatar de Hephaistos007
    Profil pro
    Enseignant Chercheur
    Inscrit en
    Décembre 2004
    Messages
    2 493
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Enseignant Chercheur
    Secteur : Enseignement

    Informations forums :
    Inscription : Décembre 2004
    Messages : 2 493
    Points : 4 166
    Points
    4 166
    Par défaut
    Juste pour info, parser le contenu d'une page web pour en extraire de l'information est un peu hors d'âge.
    Google met à disposition gratuitement une API. Tu recois les resultats des requêtes directement et tu en fais ce que tu veux.

Discussions similaires

  1. Problème avec la balise <html:select
    Par rawanex dans le forum Struts 1
    Réponses: 5
    Dernier message: 16/04/2007, 14h28
  2. Problème avec le format des décimaux
    Par layouni dans le forum Framework .NET
    Réponses: 1
    Dernier message: 14/02/2007, 14h43
  3. Réponses: 2
    Dernier message: 12/02/2007, 22h12
  4. Problème avec CString.Format
    Par abelman dans le forum MFC
    Réponses: 11
    Dernier message: 07/12/2006, 10h40
  5. Réponses: 6
    Dernier message: 17/11/2005, 15h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo