Ma String est-elle compatible Latin1 ?

**kij** · 03/09/2009, 16h59

Bonjour,

Pour détecter l'encodage d'une série de byte issue d'un fichier, tout est décrit dans le post de cette page, avec l'utilisation de l'API de Mozilla :
http://forums.sun.com/thread.jspa?th...rt=30&tstart=0

Il suffit ensuite d'adapter un peu le code pour la seconde classe comme voici :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
 
 
import java.io.BufferedInputStream;
import java.io.ByteArrayInputStream;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
 
 
import org.apache.log4j.Logger;
import org.mozilla.intl.chardet.nsDetector;
import org.mozilla.intl.chardet.nsPSMDetector;
 
public class CharsetInputHelper {
 
	Logger logger = Logger.getLogger(CharsetInputHelper.class);
 
	private nsDetector det = null;
	private CharsetInputObserver obsvr = null;
 
	public CharsetInputHelper ( ){
 
		int lang = nsPSMDetector.ALL; //or nsPSMDetector.JAPANESE and so. See Jchardet API for more information
 
		det = new nsDetector(lang);
		obsvr = new CharsetInputObserver();
 
	}
 
	public String whichEncodingIs ( byte[] theData ){
 
		boolean isAscii = true ;
		det.Init( obsvr );
 
		try {
 
			// Check if the stream is only ascii.
			if (isAscii)
				isAscii = det.isAscii(theData,theData.length);
 
			// DoIt if non-ascii and not done yet.
			// Here I've removed the && !done
			//because I wanted to see all charsets encodings
			//that Jchardet detects in a file
 
			if (!isAscii)
				det.DoIt(theData,theData.length, false);
 
 
		} catch (Exception e) {
			// TODO Auto-generated catch block
			System.err.println("[whichEncodingIs] Error : "+e.getMessage());
			e.printStackTrace();
			obsvr.setCharsetToUse("CP-500");
		} finally {
			det.DataEnd();
		}
 
		if (isAscii){
			obsvr.setCharsetToUse("ASCII");
		}
 
		return obsvr.getCharsetToUse();
	}
 
}

Et l'utilisation se fait de la manière suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
		byte[] theData = new byte[count];
		System.arraycopy(record, offset, theData, 0, count);
 
		CharsetInputHelper myHelper = new CharsetInputHelper();
		String theEncoding = myHelper.whichEncodingIs(theData);
		System.out.println("Encoding found = "+theEncoding);

"record", "offset" et "count" étant des variables issues du code où je l'utilise.

J'ai en entrée un fichier contenant à la fois de l'EBCDIC (CP-500) et de l'ASCII, et il me faut les détecter pour convertir en ASCII l'EBCDIC (et pas les données déjà convertie). Ca marche impect, il me détecte très bien la partie ASCII.

(J'ai vu que cette question est posée à plusieurs endroit, peut-être serait-il judicieux d'en faire un article dans la FAQ puisque ce genre de question / réponse ne s'y trouve pas et complèterait très bien les parties de la FAQ citée plus haut)

Cdlt.

**vermine** · 28/01/2010, 10h53

Bonjour,

Pardon de réouvrir le post mais je me devais de vous dire merci car cette réponse à résolu mon problème et Dieu sait comme on peut chercher dans le vague longtemps...

Envoyé par Tommy31

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
 
		CharsetEncoder iso8859Encoder = Charset.forName("iso-8859-1")
				.newEncoder();
		CharsetEncoder utf8Encoder = Charset.forName("UTF-8").newEncoder();
 
		String s = "éàü";
 
		String utf8S = new String(utf8Encoder.encode(
				CharBuffer.wrap(s.toCharArray())).array());
 
		System.out.println(utf8S);
 
		System.out.println(iso8859Encoder.canEncode(utf8S));

**pooum** · 08/12/2011, 15h32

Envoyé par adiGuba

Maintenant si tu fais ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
	String str = "1€";
 
	CharsetEncoder encoder = Charset.forName("iso-8859-1").newEncoder();
	boolean ok = encoder.canEncode(str);

Tu obtiendras un joli "false" car le caractère "€" n'est pas représentable dans iso-8859-1...

a++

En effet c'est ce qui se produit, cependant là est mon problème.

Je me permet de ré-ouvrir le sujet après avoir parcouru le forum. Je cherche à envoyer un chaîne via ServletOutputStream, cependant un des caractère envoyé est un €, j'ai donc une exception qui apparaît :
java.io.CharConversionException: € n'est pas un caractère ISO 8859-1

J'ai fait en sorte que l'encodage soit en UTF-8.
response.setCharacterEncoding("UTF-8");
ServletOutputStream out = response.getOutputStream();

Comment puis-je traiter ces caractères spéciaux ? (le € n'est qu'un exemple)

**thelvin** · 08/12/2011, 15h56

Fais

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Writer out = response.getWriter();

ne passe pas par ServletOutputStream. Ses méthodes print() ne savent pas gérer le charset.
De manière générale, pour écrire du texte on passe par un Writer.
Les OutputStream servent à écrire des octets, du binaire, pas du texte.

**pooum** · 08/12/2011, 16h02

J'ai essayer de remplacer par un Writer :
PrintWriter out = response.getWriter();

Puis la méthode write(String), je n'ai plus l'exception, donc il imprime l'ensemble des donnée, mais je perd l'affichage correct de tout les caractères spéciaux (tel que les "é").

**thelvin** · 08/12/2011, 16h08

C'est parce qu'avec ta méthode précédente, tu envoyais de l'iso-8859-1.

Si elle marchait bien sauf avec les accents mais pas € par exemple, ça signifie que tes applications s'attendent à lire du iso-8859-1, pas de l'utf-8. Si tu leur envoies de l'utf-8, elles sont paumées.

Solution : envoie en windows-1252 au lieu d'utf-8 ou iso-8859-1.
Ça ne pourra pas envoyer de tout comme on le peut avec utf-8, mais ça pourra envoyer des € et des œ, ce qui est probablement ce que tu veux. De plus, pour les caractères chinois ou ce genre de chose, ça ne fera pas d'exception, ça les remplacera par un ?

**pooum** · 08/12/2011, 16h20

Tout d'abord, merci pour ton aide. La solution que tu propose règle bien le problème.

Cependant je souhaiterai aller plus loin, d'après toi, le problème viens du fait que mon application s'attends à lire du iso-8859-1, pas de l'utf-8.

Comment puis-je faire en sorte que mes applications attendent de l'UTF-8 ?

**thelvin** · 08/12/2011, 16h23

Envoyé par pooum

Comment puis-je faire en sorte que mes applications attendent de l'UTF-8 ?

C'est leur problème. Tout dépend quel genre d'applications c'est, et en quel langage elles sont.
Apparemment, ta servlet leur annonçait que tu transmettais de l'utf-8, mais elles s'en foutaient complètement et le lisaient comme du iso-8859-1. Ça a l'air d'un environnement un peu particulier, je ne peux pas deviner de quoi il s'agit.

**pooum** · 08/12/2011, 16h26

OK je vois, dans le cas présent je génère un fichier excel... donc ce n'est pas moi qui ai la main.

Encore une fois merci pour tes conseils judicieux.