Bonjour, pour un projet que je dois réaliser, j'ai la problématique suivante:
Je cherche à établir une classification de véhicules suivant les caractéristiques intrinseques des véhicules (puissance,vitesse max,cylindrée etc..)
J'ai a ma disposition une base de données de plus de 150.000 individus.
Idéalement, j'aurais aimé réalisé une CAH sur les individus, analyser les graphes d'aides à l'interprétation et conclure sur le nombre de classes optimales (qui doit quand meme rester faible).
Cependant, faire une CAH avec une grosse base de données est impossible donc à ce moment la j'ai cherché à contourner ce problème:
-Réaliser dans un premier temps, un échantillonage pour récuperer un nombre assez faible d'individus et faire ma classif dessus.
Deux problèmes se posent alors: comment déterminer cet échantillon (de façon aléatoire?) et comment répartir les individus dans mes classes après la CAH.
- J'ai pu voir que certains réalisent une classification k-means puisqu'elle supporte un gros nombre d'individus et ensuite réalisent une CAH (classification mixte)
Bref, toute bonne idée ou commentaire serait le bienvenue =)![]()
Partager