Bonjour,
J'ai commencé très récemment à m'intéresser au datamining après avoir vu une introduction lors d'un cours.
Le professeur m'a fourni un jeu de données afin d'explorer le clustering. Ce jeu de données concerne le résultat du premier tour des élections 2022 par département.
Il est donc composé d'une colonne département, d'une colonne par candidat ainsi que les colonnes nuls, abstentions, blanc, inscrits et exprimés.
Il m'a donné quelques étapes afin de réaliser le clustering à savoir :
- Réaliser le partitionnement des départements en choisissant les variables explicatives avec la méthodes des K-moyennes.
- Comparer les cas où on réduit les variables ou non.
- Evaluer le nombre optimal de clusters.
- ...
J'ai réaliser les deux premières étapes. La dernière me pose davantage de problèmes. J'ai réaliser les calculs de l'inertie et du score de silhouette pour différents nombre de clusters. Au vue des résultats obtenus, je n'arrive pas à décider quel est le nombre optimal de cluster à choisir.
Voici les résultats :
J'hésite entre 3 et 4 clusters.
Quelqu'un peut-il me donner son avis et m'indiquer sa réflexion pour opérer le choix ? Egalement, s'il existe d'autres techniques pour déterminer le nombre optimal de clusters, je suis preneur.
Merci d'avance !
Partager