IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Java Discussion :

Génération d'un fichier en UTF-8 mais qui est au final en ISO


Sujet :

Langage Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Futur Membre du Club
    Homme Profil pro
    Directeur des systèmes d'information
    Inscrit en
    Juillet 2011
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Directeur des systèmes d'information
    Secteur : Distribution

    Informations forums :
    Inscription : Juillet 2011
    Messages : 3
    Par défaut Génération d'un fichier en UTF-8 mais qui est au final en ISO
    Bonjour à tous.
    Je cherche à créer un fichier en UTF-8.
    Le code qui suit est utilisé partout sur le web et ne retourne pas d'erreur.
    Le fichier est malheureusement créé au format ISO (vérifié avec PSPAD et avec un utilitaire spécifique).

    Merci pour votre aide

    Je travaille sous Eclipse (Helios) avec le jdk 1.6.

    File fichier = new File( "toto.txt" );
    BufferedWriter fileWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fichier), "UTF-8"));
    fileWriter.write( "test" );

  2. #2
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Avec ce que tu écrit dans le fichier, le contenu "biniare" du fichier sera exactement le même, que tu utilise de l'UTF-8 ou de l'iso-8859-1, l'utf-8 et l'iso-8859-1 ont tous les deux été conçus pour que les caractère ascii (7 bits) soient codés tels quels.
    Tu ne verra la différence que si tu écrit des caractère accentués, des symboles comme €, du cyrillique, du grec, etc.

  3. #3
    Futur Membre du Club
    Homme Profil pro
    Directeur des systèmes d'information
    Inscrit en
    Juillet 2011
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Directeur des systèmes d'information
    Secteur : Distribution

    Informations forums :
    Inscription : Juillet 2011
    Messages : 3
    Par défaut
    En effet mais ce n'est qu'un texte exemple.
    Le fichier définitif contiendra des caractères différentiateurs.
    Le fichier est généré pour un prestataire qui impose le format UTF-8.
    Il faut donc que j'y arrive...

  4. #4
    Membre Expert
    Homme Profil pro
    Inscrit en
    Septembre 2006
    Messages
    2 962
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Septembre 2006
    Messages : 2 962
    Par défaut
    Citation Envoyé par causier Voir le message
    Bonjour à tous.
    Je cherche à créer un fichier en UTF-8.
    Le code qui suit est utilisé partout sur le web et ne retourne pas d'erreur.
    Le fichier est malheureusement créé au format ISO (vérifié avec PSPAD et avec un utilitaire spécifique).

    Merci pour votre aide

    Je travaille sous Eclipse (Helios) avec le jdk 1.6.

    File fichier = new File( "toto.txt" );
    BufferedWriter fileWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fichier), "UTF-8"));
    fileWriter.write( "test" );
    Votre méthodologie de vérification est tout simplement erronée : les logiciels d'édition de texte se contentent d'annoncer le premier encoding compatible avec le contenu qu'ils lisent et en cas d'ambiguïté ils donnent priorité à l'encoding par défaut de la plate-forme.

    Pour forcer un "bête" éditeur de texte à vous annoncer "UTF-8" au lieu de n'importe quel autre encoding qui serait par hasard compatible avec le contenu, vous devez d'abord écrire le BOM UTF-8 en tête du fichier, soit la séquence de bytes : 0xEF,0xBB,0xBF.

    Avec çà, même si le contenu est du pur ASCII, l'éditeur de texte (pour peu qu'il ne soit pas trop "bête" et reconnaisse les BOM UTF) va dire "UTF-8" et comme vous spécifiez "UTF-8" dans le BufferedWriter, le jour où il y aura de vrais caractères non ASCII dans le stream, ils seront bien encodés en UTF-8 et il n'y aura pas de problème.

  5. #5
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 576
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 576
    Par défaut
    Citation Envoyé par JeitEmgie Voir le message
    Pour forcer un "bête" éditeur de texte à vous annoncer "UTF-8" au lieu de n'importe quel autre encoding qui serait par hasard compatible avec le contenu, vous devez d'abord écrire le BOM UTF-8 en tête du fichier, soit la séquence de bytes : 0xEF,0xBB,0xBF.
    Ce qui est la même chose qu'insérer le caractère U+FEFF, ce qui est tout de même plus simple :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    public static final char BOM = 0xFEFF;
     
    // ...
     
    fileWriter.write(BOM);
    fileWriter.write("test en été");
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  6. #6
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    ce n'est pas recommandé de mettre un BOM dans de l'utf-8, ca n'a jamais été sa raison d'être

  7. #7
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    même si ça marche ici:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    public static final char BOM = 0xFEFF;
    est une mauvaise pratique pour définir des char. Les char de java ne sont pas 100% utf-16 Pour utiliser une valeur unicode il faut faire
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    public static final char BOM = '\ufeff';

  8. #8
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 576
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 576
    Par défaut
    Citation Envoyé par tchize_ Voir le message
    même si ça marche ici:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    public static final char BOM = 0xFEFF;
    est une mauvaise pratique pour définir des char. Les char de java ne sont pas 100% utf-16 Pour utiliser une valeur unicode il faut faire
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    public static final char BOM = '\ufeff';

    ? Quelle importance, quelle différence ?
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  9. #9
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    le BOM, dans le stéandard unicode, sert à indiquer l'ordre des octets dans l'encodage, utf-8 est indépendant de cet ordre, le BOM ne sert en pratique à rien pour l'UTF-8 et le standard ne l'oblige ni ne le recommande pour l'utf-8.

    De plus, par exemple, le BOM pose des problèmes avec le shebang, pour la concaténation brute de fichiers, avec les codes source php, etc


    pour la notation, comme je l'ai dit, les char java, ce n'est pas de l'utf-16. Bien que la grande majorité des int Oxzzzz aient les même bits que le char \uzzzz correspondant, ce n'est pas le cas de tous. Il vaut donc mieux préférer prendre l'habitude pour faire des séquences unicode la notation \uxxxx

  10. #10
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 576
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 576
    Par défaut
    Citation Envoyé par tchize_ Voir le message
    ce n'est pas recommandé de mettre un BOM dans de l'utf-8, ca n'a jamais été sa raison d'être
    Euh, par qui -_-°*?

    En ce qui me concerne je n'aime pas mettre ce machin stupide au début de mes fichiers, mais ce ne sont pas les technologies à préférer (ou exiger) qu'il soit là qui manquent.

    Mais on s'éloigne du sujet. Mettre le BOM, ici, sert juste à faire dire à l'éditeur de texte que le fichier est en UTF-8, par ce que s'il n'est pas là, l'éditeur de texte décide unilatéralement que c'est du iso-8859-1. Ceci quel que soit l'encodage réél du fichier.
    L'éditeur de texte n'est pas capable de détecter l'encodage du fichier, c'est tout. Pour lui faire dire que c'est du utf-8, il faut lui mettre un BOM. Mais on s'en fout de lui faire dire ça, ce qu'on veut, c'est que ce soit vraiment un fichier en utf-8.

    Et pour ça, la méthode

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    BufferedWriter fileWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fichier), "UTF-8"));
    était la bonne.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [syslan] Mais qui est ce nouveau venu ?
    Par syslan dans le forum Présentations
    Réponses: 1
    Dernier message: 10/11/2011, 07h54
  2. Mais qui est ce mec flou dans la pub de developpez ?
    Par RomainVALERI dans le forum La taverne du Club : Humour et divers
    Réponses: 6
    Dernier message: 07/08/2009, 08h31
  3. Mais qui est AnkaOlssen ? robot lié au spam ?
    Par 10_GOTO_10 dans le forum Sécurité
    Réponses: 2
    Dernier message: 01/05/2009, 19h54
  4. Requête SQL qui a l'air simple mais qui est musclée !
    Par tamiii dans le forum Langage SQL
    Réponses: 5
    Dernier message: 04/07/2008, 16h51
  5. Une table qui existe mais qui est inconnu! ?
    Par Nino dans le forum InterBase
    Réponses: 6
    Dernier message: 13/06/2003, 11h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo