IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

contenu en anglais ou pas ?


Sujet :

Langage PHP

  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2010
    Messages
    627
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2010
    Messages : 627
    Points : 118
    Points
    118
    Par défaut contenu en anglais ou pas ?
    bonjour
    j'aimerais savoir s'il y a une possibilité avec des expressions regulières de tester si un contenu est en francais ou pas .En gros j'aimerais un filtre qui permet de garder que des contenus en francais .ceux des autres langues seront supprimés.
    merci

  2. #2
    Membre actif Avatar de John Blobsmith
    Profil pro
    Inscrit en
    Avril 2004
    Messages
    198
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 198
    Points : 223
    Points
    223
    Par défaut
    J'aime pas être trop catégorique mais je vais dire...non pas possible

  3. #3
    Nouveau membre du Club
    Inscrit en
    Mars 2010
    Messages
    36
    Détails du profil
    Informations forums :
    Inscription : Mars 2010
    Messages : 36
    Points : 38
    Points
    38
    Par défaut
    Il faut que tu revois le principe des REGEX je pense.

  4. #4
    Membre régulier Avatar de coach759
    Profil pro
    Webmaster
    Inscrit en
    Août 2009
    Messages
    79
    Détails du profil
    Informations personnelles :
    Âge : 36
    Localisation : France

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Août 2009
    Messages : 79
    Points : 92
    Points
    92
    Par défaut
    Ba non c'est pas possible étant donné que l'alphabet français et anglais sont les même....

  5. #5
    Membre expert
    Avatar de ThomasR
    Homme Profil pro
    Directeur technique
    Inscrit en
    Décembre 2007
    Messages
    2 230
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Décembre 2007
    Messages : 2 230
    Points : 3 972
    Points
    3 972
    Par défaut
    Tu peux toujours essayer d'inspecter l'attribut lang de la balise html, si l'attribut existe...

  6. #6
    Membre extrêmement actif
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    1 418
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 1 418
    Points : 1 658
    Points
    1 658
    Par défaut
    Pour ma part je pense que c’est possible et même pas très difficle à faire, à condition de bien délimiter ce qu’on aspire à faire.

    S’il s’agit de distinguer si un texte est en anglais ou en français , en sachant préalablement qu'il est intégralement dans une seule langue, je dirais que c’est facile et fiable.

    S’il s’agit de distinguer dans un texte différentes portions qui sont chacune dans une seule langue, c’est encore relativement facile et fiable.

    Les résultats seront d’autant meilleurs que les textes intégraux ou les portions seront plus longues.




    Mais s’il y a une trop grand intrication de morceaux en anglais et d’autres en français , ça risque d’être beaucoup plus foireux.




    Mon idée c’est:
    - spliter un texte en mots
    - vérifier en se connectant à un site offrant en ligne un dico d’une langue donnée si la plupart des mots splités s’y retrouvent

    Ou alors, se fonder sur des mots ou morceaux de mots récurrents ou caractéristiques d’une langue comme le, la ,les, ai, dit, je, il, ent, m’, eau, etc pour le français par exemple.

  7. #7
    Membre expert
    Avatar de ThomasR
    Homme Profil pro
    Directeur technique
    Inscrit en
    Décembre 2007
    Messages
    2 230
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Décembre 2007
    Messages : 2 230
    Points : 3 972
    Points
    3 972
    Par défaut
    Faux !

    Un site français peut très bien faire référence à des textes écrits en anglais... tout comme un site anglais peut très bien contenir quelques textes en français... ton algo ne fonctionnerait plus...

    Dire que c'est facile et fiable, bof bof.

  8. #8
    Membre émérite Avatar de Madfrix
    Profil pro
    Inscrit en
    Juin 2007
    Messages
    2 326
    Détails du profil
    Informations personnelles :
    Localisation : France, Gironde (Aquitaine)

    Informations forums :
    Inscription : Juin 2007
    Messages : 2 326
    Points : 2 566
    Points
    2 566
    Par défaut
    Au pire tester si le texte contient des mots tels que "the this" ou "le la" mais bon fiabilité c'est pas super...

  9. #9
    Membre extrêmement actif
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    1 418
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 1 418
    Points : 1 658
    Points
    1 658
    Par défaut
    Je n’ai pas parlé d’un site indéfini mais d’un dico en ligne.
    Par exemple:
    http://www.cnrtl.fr/lexicographie/

    Il suffit d’envoyer une requête de mot à cette adresse et d’analyser la réponse. Si celle-ci comporte l’expression ’Cette forme est introuvable !’ , le mot n’existe pas dans ce dictionnaire. Sinon le mot est français.

    Si un texte est intégralement en français, une proportion très élevée des requêtes va recevoir des réponses postives. Et on pourra conclure que le texte est en français.



    Après, bien sûr, c’est une autre paire de manches de faire un code qui va interroger un dico en ligne. Perso, pour le moment, je ne sais pas faire.

    Mais dans le principe, j’estime que ce genre de programme n’est pas d’une grande complexité.

    Pour quelqu’un qui sait comment faire des requêtes à un tel site, il suffirait d’une demie-heure pour écrire un premier code potable.








    L’idée d’analyser l’attribut lang s’il existe est une bonne idée. Mais il faut que le texte soit une page html.
    J’ai pensé de façon plus large au cas de textes qui n’en sont pas.

  10. #10
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2010
    Messages
    627
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2010
    Messages : 627
    Points : 118
    Points
    118
    Par défaut
    l'idée d'eyquem me parait assez intéressante .
    on peut extraire aléatoirement quelques mots dans le contenu et on vérifie sur le site en ligne .
    Maintenant va falloir penser à coder çà en php par exemple

  11. #11
    Expert confirmé
    Avatar de Doksuri
    Profil pro
    Développeur Web
    Inscrit en
    Juin 2006
    Messages
    2 467
    Détails du profil
    Informations personnelles :
    Âge : 54
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Juin 2006
    Messages : 2 467
    Points : 4 656
    Points
    4 656
    Par défaut
    Salut,
    j'apporte mon grain de sel car il m'est venu une idee qui me semble va alleger les requetes (si vous partez sur l'idee d'eyquem qui pourrait etre une solution)

    en effet si les developpeurs l'on permis, il sera possible d'interroger leur site et recupere la reponse.

    mais avant ca, tu pourras deja faire un gros tris : tu test la presence de caracteres speciaux : éèàôï etc... (ou tester des mots cles propre au francais... s' m' j' qu' etc..mais bien verifier qu'ils n'existent pas dans d'autres langues) qui (sauf erreur de ma part) sont propre a la langue francaise.
    => si presence d'un (ou plus) des caractes, hop... c'est francais on n'en parle plus.
    => sinon, webservice ?

  12. #12
    Membre expert
    Avatar de ThomasR
    Homme Profil pro
    Directeur technique
    Inscrit en
    Décembre 2007
    Messages
    2 230
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Décembre 2007
    Messages : 2 230
    Points : 3 972
    Points
    3 972
    Par défaut
    Bonsoir,

    clairement, cela ne se limite pas à comparer des mots, par exemple si je vous pose la question suivante, que répondez-vous ?

    De quel langue est le mot "car" ?

    Je pense que la solution est plus une traduction par paquet de mots, puis une vérification des proportions de chaque langue pour les paquets trouvés. Ensuite, pour vérifier qu'un site est dans une langue, il ne suffit pas non plus de vérifier une page, il faut faire ce calcul sur un ensemble de page.

    On pourrait par exemple dire qu'un site est français si au moins 80% des pages du site possèdent au moins 50% de contenu français. Le tout est de trouver le ratio le plus pertinent.

    Si tu ne souhaites pas mettre en place cet algo, il existe une solution gratos qui te permet d'identifier la langue, faire une requête en POST sur le formulaire d'action http://www.xrce.xerox.com/cgi-bin/mltt/LanguageGuesser :
    À bientôt,

Discussions similaires

  1. g_locale_to utf_8 le contenu ne s'affiche pas
    Par lrgtk dans le forum GTK+ avec C & C++
    Réponses: 1
    Dernier message: 22/11/2009, 03h20
  2. [AC-2003] Liste déroulante dont le contenu ne s'affiche pas
    Par FRESO dans le forum IHM
    Réponses: 4
    Dernier message: 07/09/2009, 11h58
  3. Runtime error 76 sur windows server 2003 anglais et pas XP
    Par Popaul22 dans le forum VB 6 et antérieur
    Réponses: 3
    Dernier message: 21/08/2008, 01h26
  4. [MySQL] Contenu ne s'affiche pas
    Par fourniey dans le forum PHP & Base de données
    Réponses: 5
    Dernier message: 17/01/2007, 18h37
  5. Réponses: 3
    Dernier message: 09/01/2007, 17h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo