IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Delphi Discussion :

Taille d'un caractère UTF-8 ?


Sujet :

Langage Delphi

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    13
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 13
    Points : 14
    Points
    14
    Par défaut Taille d'un caractère UTF-8 ?
    Bonjour, savez-vous pourquoi, sur Delphi 2009 :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    var
      s : UTF8String;
    begin
      s := 'é';
      ShowMessage(format('%d/%d', [sizeof(s[1]), length(s)]);
    end;
    me retourne "1/1" ?

    Plus étonnant :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    var
      s : UTF8String;
    begin
      s := 'éé';
      ShowMessage(format('%d/%d', [sizeof(s[1]), length(s)]);
    end;
    affiche "1/4" ! Length est censé être compatible UTF8 dans la version 2009, non ?

    Questions corollaires :
    Comment savoir avec précision la longueur d'une chaine UTF8 et sa taille en octets (pour stockage et manipulation binaire) ?

    Merci

  2. #2
    Membre éprouvé
    Avatar de Montor
    Homme Profil pro
    Autre
    Inscrit en
    Avril 2008
    Messages
    879
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Autre

    Informations professionnelles :
    Activité : Autre

    Informations forums :
    Inscription : Avril 2008
    Messages : 879
    Points : 963
    Points
    963

  3. #3
    Expert éminent sénior
    Avatar de ShaiLeTroll
    Homme Profil pro
    Développeur C++\Delphi
    Inscrit en
    Juillet 2006
    Messages
    13 522
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Développeur C++\Delphi
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juillet 2006
    Messages : 13 522
    Points : 25 052
    Points
    25 052
    Par défaut
    Citation Envoyé par NinjDS Voir le message
    Length est censé être compatible UTF8 dans la version 2009, non ?
    Il est compatible unicode codé sur 2 octets fixes, et non en UTF8 avec un nombre variable d'octet par caractère ... ne pas confondre UnicodeString (le type string) et UTF8String (dont j'ignore la forme en 2009, normalement, ça être une AnsiString pour avoir un AnsiChar qui donne bien SizeOf à 1, contrairement à l'UnicodeChar donne SizeOf à 2)

    As-tu testé avec des chaines plus longues, c'est très étrange, ton histoire
    Aide via F1 - FAQ - Guide du développeur Delphi devant un problème - Pensez-y !
    Attention Troll Méchant !
    "Quand un homme a faim, mieux vaut lui apprendre à pêcher que de lui donner un poisson" Confucius
    Mieux vaut se taire et paraître idiot, Que l'ouvrir et de le confirmer !
    L'ignorance n'excuse pas la médiocrité !

    L'expérience, c'est le nom que chacun donne à ses erreurs. (Oscar Wilde)
    Il faut avoir le courage de se tromper et d'apprendre de ses erreurs

  4. #4
    Expert éminent sénior
    Avatar de Paul TOTH
    Homme Profil pro
    Freelance
    Inscrit en
    Novembre 2002
    Messages
    8 964
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Freelance
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2002
    Messages : 8 964
    Points : 28 448
    Points
    28 448
    Par défaut
    Citation Envoyé par NinjDS Voir le message
    Bonjour, savez-vous pourquoi, sur Delphi 2009 :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    var
      s : UTF8String;
    begin
      s := 'é';
      ShowMessage(format('%d/%d', [sizeof(s[1]), length(s)]);
    end;
    me retourne "1/1" ?

    Plus étonnant :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    var
      s : UTF8String;
    begin
      s := 'éé';
      ShowMessage(format('%d/%d', [sizeof(s[1]), length(s)]);
    end;
    affiche "1/4" ! Length est censé être compatible UTF8 dans la version 2009, non ?

    Questions corollaires :
    Comment savoir avec précision la longueur d'une chaine UTF8 et sa taille en octets (pour stockage et manipulation binaire) ?

    Merci
    je viens de tester le code...

    déjà pour ceux qui n'ont pas D2009 voici ce que nous dit l'aide en ligne sur UTF8String.

    UTF8String = type AnsiString(65001);

    UTF8String représente une chaîne codée en UTF-8 (nombre variable d'octets Unicode). C'est un type System::AnsiStringBase avec une page de code UTF-8.

    Dans Delphi, UTF8String est un vrai type du compilateur. Le compilateur effectue des conversions entre System::UnicodeString et UTF8String si nécessaire.
    Si on ajoute un point de suivi sur la variable "pointer(s)" en mode dump on obtient :

    Code delphi : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
      s := 'é';  // $E9 $00
      s := 'éé'; // $C3 $A9 $C3 $A9 $00

    dans les deux cas, Delphi invoque @LstrLAsg avec en paramètre un pointeur vers une constante qui contient les chaînes indiquées ci-dessus (e9 et c3a9)...

    lors du SizeOf() la chaine passe par un appel à @InternalLStrFromUStr...on retrouve donc probablement une chaine Ansi 8bits non UTF8...

    Reste à savoir la taille UTF8 de "é" qui ne peux pas être à la fois 1 pour "é" et 4 pour "éé"

    la réponse est bien 2 et on l'obtient par
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
      s := UTF8Encode('é'); // $C3 $A3 $00
      s := string('é'); // $C3 $A3 $00
    // alors que
      s := UTF8String('é'); // $E9 $00
    ...ça sent le bug
    Developpez.com: Mes articles, forum FlashPascal
    Entreprise: Execute SARL
    Le Store Excute Store

Discussions similaires

  1. Taille d'un caractère
    Par simone.51 dans le forum Windows Forms
    Réponses: 3
    Dernier message: 05/02/2007, 15h23
  2. Lecture du caractères UTF-16 fichier
    Par Jamlan dans le forum C
    Réponses: 4
    Dernier message: 27/12/2006, 14h41
  3. [MySQL] Problème d'affichage de caractères UTF-8
    Par Metallic-84s dans le forum PHP & Base de données
    Réponses: 1
    Dernier message: 19/05/2006, 16h38
  4. [GDI] Obtenir la taille d'un caractère XXX....
    Par cyber_N dans le forum MFC
    Réponses: 4
    Dernier message: 17/11/2005, 11h32
  5. Pbm taille police de caractère
    Par uskiki85 dans le forum Access
    Réponses: 1
    Dernier message: 05/10/2005, 17h52

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo