conversion iso -> utf

**troumad** · 20/04/2007, 15h41

Bonjour

J'aimerai savoir s'il existe des méthodes automatiques pour convertir en C des fichiers iso-8859-15 en utf8 ?

Le but serait de me faire un programme qui convertisse tous les fichiers de mon site web. Il faudra aussi que je trouve et modifie des code du genre encoding="iso-8859-15" ou "charset=iso-8859-15"

Ce sera aussi pour moi un exercice...

**Médinoc** · 20/04/2007, 16h23

Sans la page de codes, tu ne peux pas faire grand-chose par toi-même.
Sous unixoïde, renseigne-toi sur iconv.
Sous Windows, la méthode classique consiste à utiliser les fonctions de conversion entre ASCII étendu et UTF-16 (ou UCS-2 sous Windows NT 4).
On peut donc utiliser ces fonctions pour :

Transformer ISO-8859-15 en UTF-16
Convertir UTF-16 en UTF-8 (mais ça, on peut aussi le faire soi-même, c'est un bon exercice).

**troumad** · 20/04/2007, 16h42

Merci !

Il va donc falloir que je cherche une page de code (équivalence entre l'iso et l'utf).
Par contre, tu parles de utf16. Il vaut mieux le 8 ou le 16 ? Quelle sera la pérénité de l'utf8 ? Se ferra t'il détronner rapidement par le 16 ?
J'avais tout en iso, mais Linux (mon OS) passant en utf, je commence à avoir des problèmes...

**Gruik** · 20/04/2007, 16h46

Oui, iconv est la solution http://man.developpez.com/man3/iconv.3.php

Si c'était du Latin1 (iso-8859-1), tu pourrais convertir les caracteres accentués (tranche 0xa0-0xff) en entité xml/html representant le caractere unicode equivalent.
Exemple, le 'Ç' est 199. En xml/html on pourrait l'ecrire '& #199;'

Attention à ne pas confondre le Latin1 et le windows-1252, car dans windows-1252 ya des caracteres dont le code Unicode n'existe pas (la tranche 0x80-0x9F). Par exemple, le symbole € a le code 0x80 et on a pas le droit d'ecrire '& #128;' (le caractere unicode 128 n'existe pas)

http://en.wikipedia.org/wiki/Latin1
http://en.wikipedia.org/wiki/Windows-1252

**Médinoc** · 20/04/2007, 16h48

Gruik: Ce n'est pas que le code Unicode n'existe pas, mais que le code CP1252 de ces caractères n'est pas égal à leur code Unicode.

Troumad: UTF-16 est ce qui est le plus utilisé en mémoire (notamment sous Windows et Java), car il est beaucoup plus facile à traiter que UTF-8. Par contre, UTF-8 est préférable pour le stockage (fichiers texte, etc.).

En mémoire, il me semble que Linux utilise directement de l'UTF-32/UCS-4 (en clair, j'ai lu ici que les wchar_t sous Linux font 4 octets).

**Gruik** · 20/04/2007, 16h51

Envoyé par Médinoc

Gruik: Ce n'est pas que le code Unicode n'existe pas, mais que le code CP1252 de ces caractères n'est pas égal à leur code Unicode.

Je sais, jvoulais dire que le caractere de code unicode 0x80 n'existe pas car la tranche 0x80-0x9f est unused (tout comme en Latin1 puisque le Latin1 est le début de la table Unicode)

**Médinoc** · 20/04/2007, 16h52

Ok.
De toute façon, Troumad n'est pas en Latin-1, mais en Latin-9.

conversion iso -> utf

C

Discussions similaires

Partager

Partager