Bonsoir,
j'ai besoin de quelques clarifications sur le sujet du filtrage des emails:
- je dois écrire un programme qui reçoit en entrée un échantillon d'emails et fait la classification, selon le contenu texte de ces emails, en mails spam ou non-spam.
il s'agit ici d'un apprentissage supervisé.
j'ai la classe Java StringToKenizer(...) qui permet de décomposer une chaîne de caractères en une suite de "mots" séparés par des "délimiteurs".
cette classe va me permettre d'avoir le contenu textuel des mes emails classifiés en un ensemble de mots. reste à analyser le contenu selon un ensemble de mots que j'identifie auparavant en tant que critère de classification.
j'ai un problème ici:
1) quels sont les mots qui me permettent de définir un mail comme spam? est-ce que je dois procéder pour les définir par une lecture de mes spams et dégager arbitrairement un ensemble de mots, ou est-ce qu'il existe une fonction qui le fait automatiquement?
Partager