Lecture de fichier: encodage utf-8 et iso-8859-1

**WindRider_** · 30/10/2009, 15h32

Bonjour à tous

,

J'aimerais avoir des informations complémentaires sur ce sujet, toujours dans le cadre du script sur lequel je travaille:
Lecture d'un fichier texte contenant des plusieurs lignes:
Voici un exemple de fichier type:

nom;prénom;age;sexe;adresse
toto;tata;9;m;adresse1
titi;tutu;10;f;adresse2
tata;tyty;7:f:adresse3

Je suis tombé, je vous l'avouerais par hasard

, sur un problème: l'encodage du fichier texte. Etant débutant en perl (oui c'est mon premier travail la dessus), j'ai encore du mal avec certaines notions.

Voila le problème:

Après avoir <fini> mon script, je testé ce dernier sur plusieurs fichiers et résultat: ce dernier ne fonctionne pas du tout avec les fichiers codés en UTF-8
Je me lance donc à la recherche d'information. Notre ami google me dit qu'il existe des programmes pour convertir les différents fichiers (iconv, recode,..). Cependant je ne cherche pas à convertir mes fichiers dans un premier temps.

J'aimerais pouvoir avant tout comprendre comment perl interprete ces différences de codage et comment il travaille donc sur un fichier texte.
Donc si vous pouviez me donner des références de sites où je pourrais me documenter plus sur ce sujet ou bien me faire une brève explication pour que je puisse mieux appréhender l'encodage en perl.

Cordialement

.

NB:
voici ma version de perl:5.10.0

voici comment je lis mon fichier:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
open(FICHIER,"$file") or die("Error opening file\n");
		@contenu=<FICHIER>;

voici la commande je tape pour executer mon script:
perl main.pl fichier.txt

**Jedai** · 02/11/2009, 19h06

Si tu veux que le fichier soit lu en utf-8, tu peux faire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
open my($file), '<:utf8', $filename
  or die "Can't read $filename : $!\n";

(j'ai aussi utilisé un scalaire pour le handle, c'est une pratique préférable à l'utilisation de GLOB que tu fais, sauf si tu tiens à être compatible avec des perl ayant plus de dix ans)

Perl a un excellent système de gestion des encodages, tu peux te reporter à ce post pour une explication simple et lire la doc de Perl (en particulier perluniintro) pour plus de détails.

(Si le problème est que tu as des encodages mélés et imprévisibles pour une même classe de fichier, dis-toi bien que le problème est à régler à la source, il existe des modules Perl qui essaient de deviner l'encodage correct, mais le problème est insoluble dans le cas général...)
--
Jedaï

**WindRider_** · 04/11/2009, 11h23

Merci jedai pour ces compléments d'informations.

Lecture de fichier: encodage utf-8 et iso-8859-1

Langage Perl

Discussions similaires

Partager

Partager