Bonjour à tous.
Je suis actuellement en train de développer un site web agrégeant de nombreux flux RSS (actuellement plus de 1200 flux) provenant de Blogs et de Twitter sur le vin, dans de multiples langues. La plupart des fonctionnalités sont déjà toutes développées, sauf une qui consisterait à créer un nuage de tags à partir des mots les plus utilisés dans tous les articles que je récupère.
Mais voilà, mon problème, c'est de parvenir à extraire les mots et expressions clés des articles. J'ai fait de nombreuses recherches et j'ai trouvé des articles parfois intéressants mais tous beaucoup trop théoriques, théories à base de logique floue, réseaux neuronaux, découpage thématique, modèle de Markov caché... Bref, des trucs qui dépassent pas mal mes connaissances.
Au départ, j'étais parti sur une solution qui consiste à supprimer tous les mots de liaison (j'ai trouvé à ce sujet des "stop lists" : http://www.web-mining.fr/methodes/stop-words) mais cela reste très insuffisant. J'ai aussi un problème concernant les expressions clés. En effet, si je fais un explode() sur les espaces, certaines expressions qui seraient pertinentes sont évidemment découpées en plusieurs mots qui se retrouvent sans aucune pertinence.
Si vous avez des solutions ou, encore mieux, du code, permettant de m'aider, je suis preneur.
Si vous avez besoin de plus de précisions, j'essayerai, dans la mesure du possible, de vous les donner.
Merci de votre lecture et merci d'avance pour votre aide.
Partager