En data-science, le partitionnement de données (clustering) fait partie des techniques d'apprentissage non supervisé permettant de qualifier les données continues d'un dataset d'après la forme de ce dataset.
L'objectif de l'algorithme des k-moyennes (k-means) est de découper notre dataset en k paquets qui se ressemblent. Le résultat du regroupement pourra définir une étiquette associée à chaque élément du dataset. C'est en ça que cette technique est classée dans l'apprentissage non supervisé, par opposition aux techniques où le libellé est fourni au modèle en même temps que les données.
Partager