Convertir html vers iso/unicode

**althea_vestrit** · 24/12/2007, 13h10

Bonjour,
pour mon projet, je veux avoir acces au contenu textuel des fichiers html.

Pour l'instant, je lis les fichiers html et je supprime les balises(avec les regex, parce que certaines m'intéressent).

Par contre ce qui me pose problème ce sont les caractères spéciaux html. Actuellement j'ai fait un array avec des motifs qui me les change en caractères unicode.

Je me demande s'il n'y a pas une méthode plus simple.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 
public static String NettoieChars(String ligne){
		Matcher matcher;
		for(Pattern pattern : patternsChars){
			int i = patternsChars.indexOf(pattern);
			matcher = pattern.matcher(ligne);
			ligne = matcher.replaceAll(chars.get(i));
		}
 
		return ligne;

Donc la question : y a-il quelque chose de plus simple. Convertisseur etc.