IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Modules Perl Discussion :

Problème de caractères bizarres, besoin de concevoir un convertisseur


Sujet :

Modules Perl

  1. #21
    Membre habitué Avatar de rcageot
    Profil pro
    rien
    Inscrit en
    Septembre 2006
    Messages
    128
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : rien

    Informations forums :
    Inscription : Septembre 2006
    Messages : 128
    Points : 170
    Points
    170
    Par défaut
    la b*ise !
    en gros il faut que tu arrive à chopper quel encodage a été utilisé lors de l'injection (copier coller) et ensuite que tu re-encodes tout ça avant de le stoquer dans ta base !

    au pire tu mets des cases à cocher ou des radio boutons en face de ta zone texte en demandant aux utilisateurs d'ou provient leur texte

    je compatis mais j'ai pas vraiment de solution

  2. #22
    Membre chevronné
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Février 2003
    Messages
    1 597
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Février 2003
    Messages : 1 597
    Points : 2 051
    Points
    2 051
    Par défaut
    Citation Envoyé par rcageot
    la b*ise !
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    $solution = 'la b*ise';
    $solution =~ s/\*/a/;


    Le soucis, c'est que les titres pollués sont déjà dans la base et que je n'ai pas moyen de repérer la pollution avant que les titres soient intégrés dans la bdd !

    Il y a tellement de personnes qui usent et abusent du copié-collé à partir de ce satané Word que je ne me vois pas les toper toutes et leur expliquer ce que ça fait.

    Et puis, lorsque la personne qui saisit passe par l'interface web, j'aurais beau lui dire que certains caractères issus d'un texte sous Word changent, elle ne verra rien à l'écran et pour elle, tout sera normal.

    Le pire, c'est que mon convertisseur utilise une bête regexp pour changer les points en apostrophes (là où c'est nécessaire bien sûr). Mais il n'est pas assez poussé

  3. #23
    Membre chevronné
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Février 2003
    Messages
    1 597
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Février 2003
    Messages : 1 597
    Points : 2 051
    Points
    2 051
    Par défaut
    Voici un bout de code pour corriger les erreurs rencontrées sur des phrases ou titres en français, anglais et allemand.

    Si vous voyez un moyen de faire mieux et surtout plus correct, n'hésitez pas, merci

    Erreurs les plus fréquemment rencontrées :

    - . à la place de oe pour des termes comme oeuvre, oeuf, coeur (le caractère œ est devenu un .)

    - «(suivi d'un espace) à la place de "

    - »(précédé d'un espace) à la place de "

    - (tiret quadratin) à la place de -

    - (3 points de suspension automatiques de Word) à la place de ...

    - . à la place de ' pour presque tous les mots contenant des apostrophes.

    Voici donc en gros les problèmes de caractères erronés que j'ai constaté majoritairement dans nos titres pollués.

    Voici partiellement mon code qui scanne $_ (une phrase ou un titre) et qui y applique quelques modifs :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
     
    s/c\.ur/coeur/g;
    s/\.uf/oeuf/g;
    s/\.uvre/oeuvre/g;
    s/« /"/g;
    s/ »/"/g;
    s/œ/oe/g;
    s/-/-/g;	# tiret quadratin
    s/-/-/g;	# tiret demi-quadratin
    s/…/.../g;	# 3 pts de suspension de Word
     
    while(/.+\.[aeiouyhAEIOUYHàâäéèêëîïôöûüù]+/)
    {
        s/(.+)\.([aeiouyhAEIOUYHàâäéèêëîïôöûüù]+)/$1'$2/;
    }
    A noter que ce script ne marche plus pour l'instant, besoin de m'y pencher plus avant mais on m'a collé sur un développement urgent à côté

    Les caractères spéciaux de Word que j'ai intégré dans mon script (tous ne sont pas clairement visibles dans mon topic) l'ont été avec SciTE parce que TextPad était incapable de les interprêter correctement.

    Je désespère !

  4. #24
    Membre habitué Avatar de rcageot
    Profil pro
    rien
    Inscrit en
    Septembre 2006
    Messages
    128
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : rien

    Informations forums :
    Inscription : Septembre 2006
    Messages : 128
    Points : 170
    Points
    170
    Par défaut
    toujours pas de solution à ton problème mais je compatis toujours donc
    sur ce lien tu trouveras la liste des caractères pouvant poser des problèmes

    http://www.cs.tut.fi/~jkorpela/www/windows-chars.html

    mais bon à partir du moment ou tu me dis que tes codages de caractères sont substitués en base par le caractère "." et que tu n'as pas accès au code pour mettre en place un test avant l'enregistrement en base je ne vois que ta solution.
    peut être si la liste devient longue, peux tu créer un dico de substution !

  5. #25
    Membre chevronné
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Février 2003
    Messages
    1 597
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Février 2003
    Messages : 1 597
    Points : 2 051
    Points
    2 051
    Par défaut
    Merci pour ce lien très interressant

    Comme tu dis, je suis bon pour bosser un code qui répare le mal déjà fait

Discussions similaires

  1. Problème de caractère ?
    Par Leishmaniose dans le forum SQL Procédural
    Réponses: 4
    Dernier message: 07/11/2006, 18h29
  2. problème de caractères clavier!!!
    Par brunetc dans le forum PostgreSQL
    Réponses: 3
    Dernier message: 10/06/2005, 14h39
  3. [SQL Server] problème de caractères spéciaux
    Par mbibim63 dans le forum MS SQL Server
    Réponses: 10
    Dernier message: 02/06/2005, 19h38
  4. [MiniPascal] Problème de caractères accentués
    Par Clandestino dans le forum Autres IDE
    Réponses: 3
    Dernier message: 03/10/2004, 14h12
  5. Problème de LINK Bizarre !!
    Par Jasmine dans le forum MFC
    Réponses: 24
    Dernier message: 19/03/2004, 16h58

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo