
Envoyé par
Aleph69
Bonjour,
la signification du terme "classification" diffère selon les auteurs et surtout selon les pays.
En France, on considère généralement que la classification concerne les problèmes de calcul d'un recouvrement d'un ensemble de données (typiquement un partitionnement). L'algorithme des k-moyennes ou la classification ascendante hiérarchique en sont des fameux exemples. On se sert principalement des algorithmes de classification pour identifier des groupes de données au sein d'un même ensemble. En anglais, on parle plutôt de problème de clustering.
En anglais, le terme "classification" est traduit par "classement" en français. Les problèmes de classement consistent à prédire les classes ou étiquettes d'un ensemble de données à partir d'une base d'apprentissage pré-étiquetée.
Pour la régression, il n'y a pas d'ambiguïté : il s'agit de prédire des valeurs numériques continues pour un ensemble de données à partir d'une base d'apprentissage. Le classement peut être vu comme un cas particulier de régression où les valeurs à prédire sont discrètes.
Pour ma part, j'évite d'utiliser le terme "classification" pour éviter toute ambiguïté. Pour le "clustering", tu peux parler des méthodes d'apprentissage non-supervisés. Pour le classement et la régression, tu peux parler des méthodes d'apprentissage supervisé (par des valeurs discrètes et continues respectivement).
Dans les modèles génératifs, on fait une ou plusieurs hypothèses sur la distribution des données. L'exemple le plus connu est le classifieur bayésien naïf avec distribution gaussienne multidimensionnelle.
Dans les modèles discriminatifs, on ne s'intéresse pas directement à la distribution des données : on cherche à construire un modèle prédictif à l'aide d'une méthode d'approximation. C'est par exemple le cas des réseaux de neurones et des machines à vecteurs supports.
En général, on considère que les modèles discriminatifs donnent de meilleurs résultats que les modèles génératifs (parce que les hypothèses sont généralement fausses et trop simplificatrices). Ceci dit, je te conseille de vérifier par toi-même car beaucoup de publications dans ce domaine proposent des tests expérimentaux biaisés (absence de validation, mauvais protocole, etc).
Partager