Besoin de vos avis sur un algo

**vodevil** · 17/02/2006, 02h17

Bonjour, j'ai une quantité énorme de fichiers a analysés en différente langue , je voudrais m'en servire pour faire un algo qui reposant sur des empreintes numérique permette de trouver la langue dans laquel est rédigé un texte.

Voici comment je voie la chose

Extraction du texte => On découpe en segment de mille mots (split ' ') => on passe le texte en minuscule => On génère pour chaque mot une empreinte que l'on compare a une base de donnée d'empreintes , l'algo cherche de quelle(s) empreinte(s) le texte est le plus proche et détermine ainsi la langue.

Je compte passé pas crypt() pour créer les empreintes.

J'aimerai savoir si le fonctionnement théorique de l'algo vous parais bon, si non quel améliorations ont pourrai y apporté.

De plus si je passe le texte en minuscule et que le texte en question est en japonais cela ne risque t'il pas de poser problème ?

merci

.

**Jedai** · 17/02/2006, 15h46

Le passage par l'empreinte est inutile, autant comparer directement les mots, ça ira plus vite.
Si tu cherches à améliorer ton algo précédent, il existe une méthode qui repose sur la fréquence des trigrammes (série de 3 lettres consécutives) dans ton texte, et avec laquelle on peut obtenir d'excellent résultat en très peu de caractères.

--
Jedaï

**vodevil** · 17/02/2006, 16h40

Ok merci je vais me renseigner sur ces trigrammes

Sa semble pas mal en effet les trigrammes

, j'ai vue qu'il en existe près de 1600 en français !

Existe t'il des listes de trigramme dispo sur le net car j'ai cherché et rien trouvé !

Ou je doit arreter de chercher et me faire un algo qui fasse sa bien ?

Besoin de vos avis sur un algo

Langage Perl

Discussions similaires

Partager

Partager