C++ encodage Iso latin1,UTF8

**kouack** · 24/04/2008, 13h19

Bonjour,
J'ai 2 fichiers l'un est de type Iso latin1et l'autre de type UTF8

J'aimerai savoir s'il ya une variable en C++
qui permettrai de savoir dans quel type d'encodage est "codé" par un fichier passé en parametre? (Iso latin1 ou UTF8)

ps : s'il ya un exemple d'utilisation ce serait le bienvenue

Merci de votre aide

**kouack** · 24/04/2008, 15h07

1 idée ?

C'est vraiment important que je puisse savoir le faire !

**Sylvain Togni** · 24/04/2008, 16h41

Si le fichier UTF8 commence par un BOM il suffit d'en vérifier la présence. Sinon il y a moyen de deviner l'encodage par une étude statistique des valeurs des octets, mais c'est pas fiable à 100%.

**kouack** · 24/04/2008, 17h01

T'aurait un exemple car en general on utilise les fichiers qui sont codés en ISO latin !

et je ne vois pas comment je pourrai verifier s'il est de type A ou de type B

**Sylvain Togni** · 25/04/2008, 10h18

Tu as vérifié si le fichier commence par un BOM (Byte Order Mark, 0xEF 0xBB 0xBF en UTF8) ?

**kouack** · 25/04/2008, 10h58

Je comprenais pas ton "BOM"

Oui je vais me renseigner et tester

Je te tiens au courant !

**Jean-Marc.Bourguet** · 25/04/2008, 11h24

Decoder en tant qu'UTF-8 un fichier en Latin1 donne generalement une erreur de decodage rapidement.

**kouack** · 25/04/2008, 11h57

Bon me revoila comme j'avais dit je fais des recherches et je vous tiens au courant

Avant d'avancer j'aurai 2 questions :

-un char est bien codé sur 1 octet
-un fichier codé en UTF8 ressemble a quoi?(un fichier classique mais sans accent?

)

voila ce que j'ai fait a approuvé si c'est ok

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
#ifndef Encodage_H
#define Encodage_H
#include <iostream>
#include <fstream>
#include<stdio.h>
#include <string>
using namespace std;
 
class Encodage{
 
   public :
    bool FileIsBOM(const char *filename);   
 
 
};
 
#endif

le point cpp

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
 
   #include "Encodage.h"
 
 
 bool Encodage::FileIsBOM(const char *filename){
            char oData[3];
            char oBom[3];
            oBom[ 0 ] = 239;// -> i
            oBom[ 1 ] = 187;// -> »
            oBom[ 2 ] = 191;// -> ¿
            ifstream ifs(filename);
            strncpy(oData,filename,3);//copie des 3 premiers caracteres du fichier
            for( int i = 0; i < 3; i++ )
               { if( oData[ i ] != oBom[ i ] ) return false;}
 
            ifs.close();
 
            return true;
        }

N'ayait pas de pitié

**zais_ethael** · 25/04/2008, 12h27

Envoyé par kouack

N'ayait pas de pitié

Ce sera difficile, là tu copies les trois premiers caractères du nom du fichier...

**kouack** · 25/04/2008, 13h00

Envoyé par zais_ethael

Ce sera difficile, là tu copies les trois premiers caractères du nom du fichier...

En effet

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
string line;
            getline(ifs,line);
            string mot(line,0,3);//recuperation du mot

**kouack** · 25/04/2008, 13h12

Quelqu'un saurait comment est constitué un fichier UTF8

-j'ai l'impression que c'est juste un fichier composé que de caracteres alphabetiques (sans accent, sans ç...)

c'est ca?

Sinon quelqu'un aurait un exemple svp c'est important ! Merci

**zais_ethael** · 25/04/2008, 13h47

Envoyé par kouack

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
string line;
            getline(ifs,line);
            string mot(line,0,3);//recuperation du mot

C'est exactement la même chose mais exprimée autrement.
C'est dans le contenu du fichier qu'il faut regarder (enfin...).
Exemple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
bool is_utf8(const std::string& filename) {
    std::ifstream file(filename.c_str());
    unsigned char tmp[4];
    std::streamsize size = file.rdbuf()->sgetn(reinterpret_cast<char*>(tmp),3);
    if(size!=3 || tmp[0]!=0xef || tmp[1]!=0xbb || tmp[2]!=0xbf)
        return false;
    return true;
}

J'ai testé avec un fichier utf-8 simplement encodé avec notepad++ et ça fonctionne. Mais d'un autre coté, rien ne permet d'affirmer que tous les éditeurs de texte respectent ce header.

**droggo** · 25/04/2008, 13h58

Qia,

Envoyé par zais_ethael

J'ai testé avec un fichier utf-8 simplement encodé avec notepad++ et ça fonctionne. Mais d'un autre coté, rien ne permet d'affirmer que tous les éditeurs de texte respectent ce header.

Mon expérience montre qu'en fait c'est assez rare, hélas.

**kouack** · 25/04/2008, 14h07

En gros il n'y pas forcement les memes headers sur les editeurs...pff ca aurait était bien !

Tu pourrais me montrer ton fichier utf8 pour que je vois a quoi cela ressemble et que je puisse le testé ?

Merci

**icer** · 25/04/2008, 15h02

Bonjour,

J'avais environ le même problème que kouack... je cherchais une fonction permettant de déterminer si une chaîne de caractéres était encodée correctement en utf-8 ou pas. Ne l'ayant pas trouver, je l'ai créée d'aprés ces infos.

Si ça peux vous aider je la poste ici.

Mais elle est en php. Je vous laisse le soin de la convertir en c++

Attention: cette fonction ne gére pas le BOM.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
 
/**
@return true si $string est une chaîne de caractères encodées en utf8
*/
function is_utf8($string){
 
	// définition de différents masks
	$e1   = 0x00; // 0xxx xxxx
	$e1_m = 0x80; // 1xxx xxxx
 
	$e2   = 0xC0; // 110x xxxx
	$e2_m = 0xD0; // 111x xxxx
 
	$e3   = 0xD0; // 1110 xxxx
	$e3_m = 0xE0; // 1111 xxxx
 
	$e4   = 0xF0; // 1111 0xxx
	$e4_m = 0xF8; // 1111 1xxx 
 
	$inner_byte   = 0x80; // 10xx xxxx
	$inner_byte_m = 0xC0; // 11xx xxxx
 
	$bytes = str2ascii($string);
 
	$is_utf8  = true;
	$continue = true;
	$cur = 0;
 
	while($continue && $cur < count($bytes)){
		// encodage sur 1 byte ?
		if($e1 == ($bytes[$cur] & $e1_m)){
			$cur++;
		}
		// encodage sur 2 byte ?
		elseif($e2 == ($bytes[$cur] & $e2_m)){
			if(($cur + 2 < count($bytes))  
			&& ($inner_byte == ($bytes[$cur + 1] & $inner_byte_m))){
				$cur += 2;
			}else{
						$is_utf8  = false;
						$continue = false;
			}
 
		}
		// encodage sur 3 byte ?
		elseif($e3 == ($bytes[$cur] & $e3_m)){
			if( ($cur + 3 < count($bytes))  
			&& ($inner_byte == ($bytes[$cur + 1] & $inner_byte_m))
			&& ($inner_byte == ($bytes[$cur + 2] & $inner_byte_m))){
				$cur += 3;
			}else{
						$is_utf8  = false;
						$continue = false;
			}
		}
		// encodage sur 4 byte ?
		elseif($e4 == ($bytes[$cur] & $e4_m)){
			if(($cur + 4 < count($bytes))
			&& ($inner_byte == ($bytes[$cur + 1] & $inner_byte_m))
			&& ($inner_byte == ($bytes[$cur + 2] & $inner_byte_m))
			&& ($inner_byte == ($bytes[$cur + 3] & $inner_byte_m))){
				$cur += 4;
			}else{
				$is_utf8  = false;
				$continue = false;
			}
		}else{
			$is_utf8  = false;
			$continue = false;
		}
	}
	return $is_utf8;
}