Bonjour,
je me demandais s'il existait un module en python qui permette de reconnaitre l'encodage d'un fichier. Je peux facilement déterminer si un fichier est UTF 16 BE ou LE en analysant les deux premiers bytes du fichier quand celui ci est Bommé. (Le module Codecs possède des constantes qui identifient le bommage) La difficulté commence avec les fichiers UTF-16 non Bommé, mais la encore je m'en sors en analysant si le fichier est codé sur 16 bits (De la forme 0x00 0x?? 0x00 0x?? etc...) La réelle difficultée arrive quand les fichiers sont codés en UTF-8 car à part quand le BOM spécifique UTF-8 (0xEF, 0xBB, 0xBF) est présent, ce qui est très rare, je ne vois pas comment determiner l'encodage d'un tel fichier. Quelqu'un connaitrait il une solution.
Merci.
Xav.
Partager