Lire un fichier encodé en UNICODE

**loman02** · 04/01/2007, 16h23

Bonjour a tous!

Voici mon probleme:

Je suis en train de creer un parser XML, celui ci fonctionne bien jusqu'à present.

Pour la suite de mon projet j'ai des fichiers de dialogues en plusieurs langues dont le japonais. Vous vous doutez que mon parser ne fonctionne pas avec l'unicode. J'utilise le standard string du c++ et je souhaite que mon code soit le plus possible portable (Windows / Linux / Mac).

Mes questions sont les suivantes:

De quelle maniere puis je lire des fichiers en UNICODE en C++ ?
Est ce possible de reconnaitre l'encodage des fichiers ?

**pseudocode** · 04/01/2007, 17h19

Houla, ecrire un parser XML, c'est reinventer la roue... Enfin, bon, qq petits trucs a savoir:

1. En XML, l'encodage est normalement specifié dans l'entete:
<?xml version="1.0" encoding="xxxxxxxx"?>
Qaund ce n'est pas spécifié, on assume ce qu'on veut (generalement utf-8)

2. si tes fichiers sont en japonais, il y a des chances qu'ils soient encodés en SHIFTJIS et pas en UNICODE... donc prudence....

3. Il y a plusieurs format unicode: UTF-8, UTF-16, ... et pleins d'autres

Donc pour toutes ces raisons, je te conseillerai:

A. De prendre un parser XML existant

qui gere les encoding (libxml)

B. De convertir tous tes fichiers en UTF-16 (avec iconv) et d'utiliser les fonctions widestring (wchar_t, getwc, ...) dans ton parser.

**loman02** · 04/01/2007, 17h30

Merci beaucoup cependant le produit final pourrait être open source , je n'aurais pas de probleme avec libxml ?

**pseudocode** · 04/01/2007, 17h42

libxml est dispo sous la licence MIT qui est vraiment super permissive.

**zais_ethael** · 04/01/2007, 17h51

Je crains qu'il n'y aie problème supplémentaire si tu veux manipuler de l'unicode en C++ standard de façon portable.
La seule classe qui pourrait être utilisée pour en faire est wstring (typedef de basic_string) mais même le comité de normalisation reconnait qu'elle n'est pas suffisante (cf cet article). Il faudra donc mieux te tourner vers une autre biblio, genre ICU (probablement fort complexe mais je n'en connais pas d'autres).

**loman02** · 04/01/2007, 18h01

Merci beaucoup pour votre aide je vais voir ce que je peux faire avec vos informations

encore merci

**_rose** · 11/02/2007, 13h30

Salut loman02

J'ai un peu le même souci que toi.
En effet je voudrais que mon programme C++ (plateforme Linux) puisse gérer tous les alphabets. Mon programme récupère les mails sur des serveurs de mails, et il faut que ça puisse gérer les mails d'un chinois par exemple, et ne pas afficher des caractères tous bizarres.

J'utilisais jusqu'à présent les string du C++, et j'ai beau avoir fait des tonnes de recherches à ce sujet, je n'arrive pas à voir exactement quel type je dois utiliser.

Est-ce que tu as trouvé une solution à ton problème, qui pourrait résoudre le mien ?

Merci par avance à tous ceux qui me consacreront du temps

Rose

**zais_ethael** · 13/02/2007, 11h08

Je pense que la ton problème n'est pas seulement de manipuler de l'unicode mais aussi de l'afficher. Et pour ça il faut utiliser une biblio d'affichage qui puisse les gérer, toutes les plus grosses le font (wxWidgets, Qt, gtk, mfc,...). Donc ça dépendra surtout de la biblio que tu utilises. Si tu fais de la ligne de commande, je suis même pas sur qu'elle puisse afficher des caractères chinois.

**Médinoc** · 13/02/2007, 13h13

De plus, il me semble que les streams C++ ne marchent pas en unicode (même les streams unicode convertissent en ASCII étendu avant d'écrire dans le fichier) mais cela doit dépendre de certaines implémentations.
Ou bien, il faut spécifier l'encodage en ouvrant le fichier...

**_rose** · 16/02/2007, 18h19

Merci pour vos réponses, et désolée de ne pas avoir donné suite rapidement.

Le problème n'est pas l'affichage de ces caractères, mais l'insertion de ceux-ci dans une base MySql, pourtant totalement encodée en utf-8, ainsi que le serveur sur lequel je travaille.

Mais ce qui est bizarre, c'est que depuis le changement d'interclassement de la base de latin1... à utf-8, meme les accents posent problèmes.
Par exemple, si j'insère depuis mon programme le texte:
hihihéhé
Sera effectivement inséré dans la base :
hihih

C'est vraiment très bizarre, et j'ai du mal à comprendre ce que je dois faire exacement !

Merci beaucoup de votre aide

Lire un fichier encodé en UNICODE

XML

Discussions similaires

Partager

Partager