J'en ai déjà parlé plusieurs fois sur ce forum, de manière directe ou indirecte en cherchant à résoudre certains aspets spécifiques de l'implémentation globale.
Ainsi, pour classer des documents, il faut leur donner une représentation numérique afin de pouvoir les comparer les uns aux autres par des calculs à exécuter sur un ordinateur.
En supposant que l'on ait trouvé la "bonne" représentation numérique et la "bonne" formule pour les comparer (un calcul de "distance"), si on se limite à comparer tous les documents deux à deux on se trouve face à une complexité O(n²) qui ne permet pas, aujourd'hui, d'obtenir une réponse "rapide" quand on est face à des millions de documents.
C'est ainsi qu'en fouillant sur le net et en interrogeant les forum, je me suis retrouvé avec une nomenclature barbare genre Rocchio, k-PPV, SVM, SOM... et sans doute d'autres encore.
J'en ai retenu deux:
-SVM (Support Vector Machine)
-SOM (Self-Organizing Map)
Je n'ai rien trouvé de suffisamment vulgarisé à propos de SVM, et je n'ai pas insisté car la classification avec cette méthode demande une supervision.
Par contre, pour les SOM j'ai trouvé pas mal d'infos (en anglais), des exemples, de la discussion sur certains détails, etc. De plus, le principe est finalement très simple, et, surtout, la classification est entièrement automatique, aucune supervision n'est nécessaire. Quand on ne sait pas ce qu'on classe, c'est toujours utile...
Mon problème est pour ainsi dire "résolu" bien que le paramétrage ne soit pas toujours aisé.
Alors pourquoi ouvrir ce thread? Simple.
Dans toutes mes recherches, je n'ai JAMAIS trouvé sur un site francophone la moindre allusion à ces fameux SOM. Que se soit les forum, les écoles, les universités, etc, on semble ignorer l'existence des SOM et j'ai chaque fois été orienté vers les SVM sans en trouver de vulgarisation autre qu'éducative (j'ai des millions de documents à classer moi, pas juste classer quelques auteurs de théatre ou poésie )
J'aimerais donc, ici, en français , discuter de classification automatique de documents. Comparer les méthodes, évaluer les performances et l'efficacité, etc.
A vous lire
PS: Si vous voulez l'historique, tout a commencé ici: http://www.developpez.net/forums/viewtopic.php?t=321089
Partager