Bonjour,
je travaille sur l'élaboration d'un méta moteur (genre Copernic).
Le principe consiste à lancer des requêtes auprès de moteurs de recherche, d'obtenir le résultat (à cette étape, le parsing se fait automatiquement) puis de travailler sur les résultats (partie algorithmique), enfin de stocker les résultats dans un document XML.
Le problème que je rencontre vient des résultats fournis par Google qui emploie des tags pouvant dérouter le parsing. exemple
Pour le & commercial, le HTML "classique" donne & et google le note &am;
J'ai essayé de corriger ces problèmes alors je suis tombé sur un NullPointerException
Ne sachant pas trop ou se trouve le problème, je voudrais déjà savoir s'il existe une méthode pour transformer du texte en HTML et inversement. J'essaye de procéder par étapes.
Partager