IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Détection de codage de caractères ne fonctionne pas


Sujet :

Langage PHP

  1. #1
    Membre éclairé
    Homme Profil pro
    Ingénieur en électrotechnique retraité
    Inscrit en
    Décembre 2008
    Messages
    1 590
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 72
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur en électrotechnique retraité

    Informations forums :
    Inscription : Décembre 2008
    Messages : 1 590
    Points : 813
    Points
    813
    Par défaut Détection de codage de caractères ne fonctionne pas
    Bonjour,
    J'ai un fichier CSV codé en ANSI.
    Je le télécharge dans un $_FILES avec ce code:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    		$_SESSION['importFile'] = [];
    		if(!empty($_FILES['importFile']) and $_FILES['importFile']['error'] != 4 and !empty($_FILES['importFile']['name'])){
    			$_SESSION['importFile']['csvLines']		= file($_FILES['importFile']['tmp_name']);
    			$_SESSION['importFile']['delimiter']	= getFileDelimiter($_FILES['importFile']['tmp_name'],5);  //Check 5 lines to determine the delimiter
    Et dans un autre fichier:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    	$delimiter = $_SESSION['importFile']['delimiter'];
     
    	// handle encoding
    	$aCSVLines = $_SESSION['importFile']['csvLines'];
    	$test	= substr(implode($delimiter,$aCSVLines),0,10000);	// To limit the time of process
    	$code = mb_detect_encoding($test);
    	var_dump($code);	// retourne UTF-8 au lieu de ANSI ou ASCII. Pourquoi?
    	if(mb_detect_encoding($code) != "UTF-8")
    		$aCSVLines = mb_convert_encoding($aCSVLines,"UTF-8",$code);
    Le codage n'est pas bon, ce que met en évidence un var_dump($aCSVLines) (ligne 10) qui affiche des points d'interrogation à la place des caractères accentués.

  2. #2
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 888
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 888
    Points : 6 632
    Points
    6 632
    Par défaut
    C'est simple mb_detect_encoding teste dans l'ordre les encodages définis soit par mb_detect_order, ou soit dans ton php.ini à l'entrée mbstring.detect_order ou soit en deuxième paramètre de la fonction elle-même.

    Mais si aucun des encodages présent dans la liste ne correspond à la chaîne soumise à mb_detect_encoding, alors cette fonction renverra l'encodage qu'elle estime le plus proche.

    C'est pour cette raison que cette fonction dispose d'un troisième paramètre permettant un test stricte (voir le manuel).

    Attention en composant ta liste de détection, elle doit toujours être classée de l'encodage le moins permissif au plus lâche, exemple: ASCII, UTF-8, ISO-8859-1.
    ASCII est sur 7 bits, UTF-8 n'autorise que des séquences d'octets bien précises, par contre les ISO-, Windows- et pratiquement tout le reste est codé sur 8 bit et se fichent de la succession des octets puisque chaque caractère est codé sur un octet (c'est d'ailleurs pour ça qu'ils valident n'importe quelle chaîne et sont indifférenciables les uns des autres).

    Il y a fort à parier que ta liste de détection ne soit composée par défaut que de ASCII et UTF-8 (dans cet ordre).




    Vu que ton but est de savoir si oui ou non la chaîne est en UTF-8 pour pouvoir la convertir au besoin, autant ne pas te fatiguer avec cette fonction et utiliser directement mb_check_encoding($tachaine, 'UTF-8') qui renverra un booléen.

  3. #3
    Membre éclairé
    Homme Profil pro
    Ingénieur en électrotechnique retraité
    Inscrit en
    Décembre 2008
    Messages
    1 590
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 72
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur en électrotechnique retraité

    Informations forums :
    Inscription : Décembre 2008
    Messages : 1 590
    Points : 813
    Points
    813
    Par défaut
    Merci, j'y vois plus clair.
    J'ai modifié mon code comme ceci car j'ai besoin du code pour effectuer la conversion:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    	$code = mb_detect_encoding($test,"ASCII, UTF-8, ISO-8859-1, windows-1251");
    	if(!mb_check_encoding($test, 'UTF-8')){
    		$aCSVLines = mb_convert_encoding($aCSVLines,"UTF-8",$code);
    	}
    J'attends les éventuelles réactions à cette dernière réponse avant de marquer le sujet comme résolu.

  4. #4
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 888
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 888
    Points : 6 632
    Points
    6 632
    Par défaut
    Tu devrais plutôt l'écrire comme ceci:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    if (!mb_check_encoding($test, 'UTF-8')) {
        $code = mb_detect_encoding($test, 'ISO-8859-1, Windows-1251', true);
        $aCSVLines = mb_convert_encoding($aCSVLines, 'UTF-8', $code);
    }
    ou alors
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    $code = mb_detect_encoding($test, 'UTF-8, ISO-8859-1, Windows-1251', true); // sans ASCII
    if ( $code !== 'UTF-8' ) {
        $aCSVLines = mb_convert_encoding($aCSVLines, 'UTF-8', $code);
    }
    Mais à ta place je n'attendrais pas grand chose de mb_detect_encoding. J'ai effectué plusieurs tests avec ISO-8859-1 et Windows-1251 dans l'ordre et dans le désordre, des chaînes latines accentuées, des chaînes en cyrillique, des chaînes avec caractères de contrôle, bref, les résultats sont délirants en particulier avant PHP 8.1 avec lequel on pourrait à la limite bredouiller quelques rêgles empiriques.
    Seul le test UTF-8 te donnera quelque chose de fiable, le reste c'est un peu la roulette.

    Si tu connais la provenance des fichiers, par exemple tu sais qu'ils ont été faits sur un poste francophone avec un vieux Windows qui est réglé en Windows-1252, ou ISO-8859-1, voire ISO-8859-15 (pour le signe €), mets le directement en paramètre de mb_convert_encoding. Tu en testes quelques uns pour être sûre que c'est toujours le même encodage foireux et c'est parti mon kiki.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 3
    Dernier message: 21/08/2018, 02h40
  2. [XL-2010] Les opérateurs de manipulation de chaines de caractères ne fonctionnent pas
    Par jpclabaux dans le forum Macros et VBA Excel
    Réponses: 9
    Dernier message: 31/07/2013, 19h22
  3. Réponses: 1
    Dernier message: 23/01/2009, 10h07
  4. Réponses: 4
    Dernier message: 05/06/2008, 18h14
  5. [SWFObject] Détection de Flash ne fonctionne pas
    Par web_traveller dans le forum Intégration
    Réponses: 0
    Dernier message: 15/04/2008, 19h58

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo