IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Java Discussion :

Génération d'un fichier en UTF-8 mais qui est au final en ISO


Sujet :

Langage Java

  1. #1
    Futur Membre du Club
    Homme Profil pro
    Directeur des systèmes d'information
    Inscrit en
    Juillet 2011
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Directeur des systèmes d'information
    Secteur : Distribution

    Informations forums :
    Inscription : Juillet 2011
    Messages : 3
    Par défaut Génération d'un fichier en UTF-8 mais qui est au final en ISO
    Bonjour à tous.
    Je cherche à créer un fichier en UTF-8.
    Le code qui suit est utilisé partout sur le web et ne retourne pas d'erreur.
    Le fichier est malheureusement créé au format ISO (vérifié avec PSPAD et avec un utilitaire spécifique).

    Merci pour votre aide

    Je travaille sous Eclipse (Helios) avec le jdk 1.6.

    File fichier = new File( "toto.txt" );
    BufferedWriter fileWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fichier), "UTF-8"));
    fileWriter.write( "test" );

  2. #2
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Avec ce que tu écrit dans le fichier, le contenu "biniare" du fichier sera exactement le même, que tu utilise de l'UTF-8 ou de l'iso-8859-1, l'utf-8 et l'iso-8859-1 ont tous les deux été conçus pour que les caractère ascii (7 bits) soient codés tels quels.
    Tu ne verra la différence que si tu écrit des caractère accentués, des symboles comme €, du cyrillique, du grec, etc.

  3. #3
    Futur Membre du Club
    Homme Profil pro
    Directeur des systèmes d'information
    Inscrit en
    Juillet 2011
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Directeur des systèmes d'information
    Secteur : Distribution

    Informations forums :
    Inscription : Juillet 2011
    Messages : 3
    Par défaut
    En effet mais ce n'est qu'un texte exemple.
    Le fichier définitif contiendra des caractères différentiateurs.
    Le fichier est généré pour un prestataire qui impose le format UTF-8.
    Il faut donc que j'y arrive...

  4. #4
    Membre Expert
    Homme Profil pro
    Inscrit en
    Septembre 2006
    Messages
    2 962
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Septembre 2006
    Messages : 2 962
    Par défaut
    Citation Envoyé par causier Voir le message
    Bonjour à tous.
    Je cherche à créer un fichier en UTF-8.
    Le code qui suit est utilisé partout sur le web et ne retourne pas d'erreur.
    Le fichier est malheureusement créé au format ISO (vérifié avec PSPAD et avec un utilitaire spécifique).

    Merci pour votre aide

    Je travaille sous Eclipse (Helios) avec le jdk 1.6.

    File fichier = new File( "toto.txt" );
    BufferedWriter fileWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fichier), "UTF-8"));
    fileWriter.write( "test" );
    Votre méthodologie de vérification est tout simplement erronée : les logiciels d'édition de texte se contentent d'annoncer le premier encoding compatible avec le contenu qu'ils lisent et en cas d'ambiguïté ils donnent priorité à l'encoding par défaut de la plate-forme.

    Pour forcer un "bête" éditeur de texte à vous annoncer "UTF-8" au lieu de n'importe quel autre encoding qui serait par hasard compatible avec le contenu, vous devez d'abord écrire le BOM UTF-8 en tête du fichier, soit la séquence de bytes : 0xEF,0xBB,0xBF.

    Avec çà, même si le contenu est du pur ASCII, l'éditeur de texte (pour peu qu'il ne soit pas trop "bête" et reconnaisse les BOM UTF) va dire "UTF-8" et comme vous spécifiez "UTF-8" dans le BufferedWriter, le jour où il y aura de vrais caractères non ASCII dans le stream, ils seront bien encodés en UTF-8 et il n'y aura pas de problème.

  5. #5
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 576
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 576
    Par défaut
    Citation Envoyé par JeitEmgie Voir le message
    Pour forcer un "bête" éditeur de texte à vous annoncer "UTF-8" au lieu de n'importe quel autre encoding qui serait par hasard compatible avec le contenu, vous devez d'abord écrire le BOM UTF-8 en tête du fichier, soit la séquence de bytes : 0xEF,0xBB,0xBF.
    Ce qui est la même chose qu'insérer le caractère U+FEFF, ce qui est tout de même plus simple :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    public static final char BOM = 0xFEFF;
     
    // ...
     
    fileWriter.write(BOM);
    fileWriter.write("test en été");
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  6. #6
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    ce n'est pas recommandé de mettre un BOM dans de l'utf-8, ca n'a jamais été sa raison d'être

  7. #7
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    même si ça marche ici:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    public static final char BOM = 0xFEFF;
    est une mauvaise pratique pour définir des char. Les char de java ne sont pas 100% utf-16 Pour utiliser une valeur unicode il faut faire
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    public static final char BOM = '\ufeff';

  8. #8
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 576
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 576
    Par défaut
    Citation Envoyé par tchize_ Voir le message
    ce n'est pas recommandé de mettre un BOM dans de l'utf-8, ca n'a jamais été sa raison d'être
    Euh, par qui -_-°*?

    En ce qui me concerne je n'aime pas mettre ce machin stupide au début de mes fichiers, mais ce ne sont pas les technologies à préférer (ou exiger) qu'il soit là qui manquent.

    Mais on s'éloigne du sujet. Mettre le BOM, ici, sert juste à faire dire à l'éditeur de texte que le fichier est en UTF-8, par ce que s'il n'est pas là, l'éditeur de texte décide unilatéralement que c'est du iso-8859-1. Ceci quel que soit l'encodage réél du fichier.
    L'éditeur de texte n'est pas capable de détecter l'encodage du fichier, c'est tout. Pour lui faire dire que c'est du utf-8, il faut lui mettre un BOM. Mais on s'en fout de lui faire dire ça, ce qu'on veut, c'est que ce soit vraiment un fichier en utf-8.

    Et pour ça, la méthode

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    BufferedWriter fileWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fichier), "UTF-8"));
    était la bonne.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  9. #9
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 576
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 576
    Par défaut
    Citation Envoyé par tchize_ Voir le message
    même si ça marche ici:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    public static final char BOM = 0xFEFF;
    est une mauvaise pratique pour définir des char. Les char de java ne sont pas 100% utf-16 Pour utiliser une valeur unicode il faut faire
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    public static final char BOM = '\ufeff';

    ? Quelle importance, quelle différence ?
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  10. #10
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    le BOM, dans le stéandard unicode, sert à indiquer l'ordre des octets dans l'encodage, utf-8 est indépendant de cet ordre, le BOM ne sert en pratique à rien pour l'UTF-8 et le standard ne l'oblige ni ne le recommande pour l'utf-8.

    De plus, par exemple, le BOM pose des problèmes avec le shebang, pour la concaténation brute de fichiers, avec les codes source php, etc


    pour la notation, comme je l'ai dit, les char java, ce n'est pas de l'utf-16. Bien que la grande majorité des int Oxzzzz aient les même bits que le char \uzzzz correspondant, ce n'est pas le cas de tous. Il vaut donc mieux préférer prendre l'habitude pour faire des séquences unicode la notation \uxxxx

  11. #11
    Futur Membre du Club
    Homme Profil pro
    Directeur des systèmes d'information
    Inscrit en
    Juillet 2011
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Directeur des systèmes d'information
    Secteur : Distribution

    Informations forums :
    Inscription : Juillet 2011
    Messages : 3
    Par défaut
    Merci à tous pour vos précieux renseignements.
    J'ai demandé au prestataire de ma valider le fichier complet.

    Le contenu est bien codé en UTF-8. Mon pb est donc résolu.

    C'est donc la classe java qui omet de renseigner le BOM.


  12. #12
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 576
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 576
    Par défaut
    Citation Envoyé par causier
    C'est donc la classe java qui omet de renseigner le BOM.
    ? Personne n'omet rien du tout.
    Déjà, comme discuté au-dessus, la légitimité de mettre un BOM est hautement discutable.
    Ensuite, même si tu veux en mettre un, Java est bien obligé de tenir compte des gens qui ne veulent pas de ce truc. Par conséquent, si tu le veux, tu le mets toi-même, c'est normal.

    Citation Envoyé par tchize_ Voir le message
    le BOM, dans le stéandard unicode, sert à indiquer l'ordre des octets dans l'encodage, utf-8 est indépendant de cet ordre, le BOM ne sert en pratique à rien pour l'UTF-8 et le standard ne l'oblige ni ne le recommande pour l'utf-8.
    Unicode n'est jamais qu'une manière de digitaliser les scripts d'écriture humaine. Il y a une limite à ce qu'ils ont légitimité à recommander ou pas. En général, c'est plutôt l'état de l'art qui recommande ou non.

    Citation Envoyé par tchize_ Voir le message
    De plus, par exemple, le BOM pose des problèmes avec le shebang, pour la concaténation brute de fichiers, avec les codes source php, etc
    C'est un prêté pour un rendu nous sommes d'accord. Et personnellement, je suis plutôt de l'avis de ne pas mettre de BOM. Mais ce n'est pas une raison pour passer l'autre côté sous silence.

    Citation Envoyé par tchize_ Voir le message
    pour la notation, comme je l'ai dit, les char java, ce n'est pas de l'utf-16. Bien que la grande majorité des int Oxzzzz aient les même bits que le char \uzzzz correspondant, ce n'est pas le cas de tous. Il vaut donc mieux préférer prendre l'habitude pour faire des séquences unicode la notation \uxxxx
    ? Un contre-exemple dans l'intervalle 0x0 - 0xFFFF ?

    La JSTL JLS dit-elle explicitement que la conversion int <-> char repose sur autre chose que considérer que le int est le code point unicode du char ?
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  13. #13
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    effectivement, je viens relire la JLS, c'est les valeurs supérieures à \uffff donc non représentables par un seul char qui posent problème uniquement, dans ma mémoire il avaient bidouillé aussi deux trois trucs dans le range inférieur, mais ma mémorie doit être défaillante

  14. #14
    Membre Expert
    Homme Profil pro
    Inscrit en
    Septembre 2006
    Messages
    2 962
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Septembre 2006
    Messages : 2 962
    Par défaut
    "Use of a BOM is neither required nor recommended for UTF-8, but may be encountered in contexts where UTF-8 data is converted from other encoding forms that use a BOM or where the BOM is used as a UTF-8 signature"
    Dans le cas présent, mettre les 3 bytes en tête du fichier, avait pour premier intérêt de démontrer que se baser sur ce que prétend un éditeur de texte basique n'a aucune valeur de "preuve" quant à l'encoding du fichier quand ces 3 bytes ne sont pas là. (et quand ils sont là, ce n'est qu'une "annonce", encore faut-il que les séquences de bytes >0x7F respectent la norme UTF-8…)

    Par contre, l'intérêt de les mettre ou non dans les fichiers générés en "production", dépendra uniquement du work flow qui manipulera les fichiers par la suite : soit les mettre apportera quelque chose en permettant d'améliorer un traitement grâce à ce critère univoque simple, soit au contraire il provoquera des problèmes de compatibilité car certains logiciels en aval ne seront pas compatibles avec ce "BOM" (improprement nommé pour l'UTF-8 soit, mais c'est ainsi qu'on le trouve nommé un peu partout - y compris dans le texte du standard - même si c'est un abus de langage…) : l'utiliser ou non, c'est donc principalement une question de contexte et d'utilité ou non.

    En général, si les fichiers de sortie peuvent aller n'importe où… on omet le BOM UTF-8, ça évite les problèmes avec les logiciels "simplistes" ou "vieillots" (et avec leurs utilisateurs).
    Et comme le dit tchize, de nombreux langages de programmation et d'outils shell n'apprécient pas trop, voire pas du tout, le BOM dans leurs fichiers sources.
    (Mais l'utilitaire "file" reconnaît parfaitement un tel fichier texte et affiche : "UTF-8 Unicode (with BOM) text"… )

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [syslan] Mais qui est ce nouveau venu ?
    Par syslan dans le forum Présentations
    Réponses: 1
    Dernier message: 10/11/2011, 07h54
  2. Mais qui est ce mec flou dans la pub de developpez ?
    Par RomainVALERI dans le forum La taverne du Club : Humour et divers
    Réponses: 6
    Dernier message: 07/08/2009, 08h31
  3. Mais qui est AnkaOlssen ? robot lié au spam ?
    Par 10_GOTO_10 dans le forum Sécurité
    Réponses: 2
    Dernier message: 01/05/2009, 19h54
  4. Requête SQL qui a l'air simple mais qui est musclée !
    Par tamiii dans le forum Langage SQL
    Réponses: 5
    Dernier message: 04/07/2008, 16h51
  5. Une table qui existe mais qui est inconnu! ?
    Par Nino dans le forum InterBase
    Réponses: 6
    Dernier message: 13/06/2003, 11h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo