Bonjour, j'ai une quantité énorme de fichiers a analysés en différente langue , je voudrais m'en servire pour faire un algo qui reposant sur des empreintes numérique permette de trouver la langue dans laquel est rédigé un texte.
Voici comment je voie la chose
Je compte passé pas crypt() pour créer les empreintes.Extraction du texte => On découpe en segment de mille mots (split ' ') => on passe le texte en minuscule => On génère pour chaque mot une empreinte que l'on compare a une base de donnée d'empreintes , l'algo cherche de quelle(s) empreinte(s) le texte est le plus proche et détermine ainsi la langue.
J'aimerai savoir si le fonctionnement théorique de l'algo vous parais bon, si non quel améliorations ont pourrai y apporté.
De plus si je passe le texte en minuscule et que le texte en question est en japonais cela ne risque t'il pas de poser problème ?
merci .
Partager