IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Analyse inertie et score de silhouette - clustering


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Candidat au Club
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juillet 2024
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Indre (Centre)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2024
    Messages : 2
    Points : 2
    Points
    2
    Par défaut Analyse inertie et score de silhouette - clustering
    Bonjour,

    J'ai commencé très récemment à m'intéresser au datamining après avoir vu une introduction lors d'un cours.

    Le professeur m'a fourni un jeu de données afin d'explorer le clustering. Ce jeu de données concerne le résultat du premier tour des élections 2022 par département.
    Il est donc composé d'une colonne département, d'une colonne par candidat ainsi que les colonnes nuls, abstentions, blanc, inscrits et exprimés.

    Il m'a donné quelques étapes afin de réaliser le clustering à savoir :
    - Réaliser le partitionnement des départements en choisissant les variables explicatives avec la méthodes des K-moyennes.
    - Comparer les cas où on réduit les variables ou non.
    - Evaluer le nombre optimal de clusters.
    - ...

    J'ai réaliser les deux premières étapes. La dernière me pose davantage de problèmes. J'ai réaliser les calculs de l'inertie et du score de silhouette pour différents nombre de clusters. Au vue des résultats obtenus, je n'arrive pas à décider quel est le nombre optimal de cluster à choisir.

    Voici les résultats :
    Nom : Capture d’écran 2024-07-27 à 17.47.59.png
Affichages : 46
Taille : 86,9 Ko

    J'hésite entre 3 et 4 clusters.

    Quelqu'un peut-il me donner son avis et m'indiquer sa réflexion pour opérer le choix ? Egalement, s'il existe d'autres techniques pour déterminer le nombre optimal de clusters, je suis preneur.

    Merci d'avance !

  2. #2
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    Décembre 2013
    Messages
    4 095
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : Décembre 2013
    Messages : 4 095
    Points : 9 478
    Points
    9 478
    Par défaut
    Je ne connais pas ces 2 indicateurs.
    Mais en regardant les graphiques (en particulier le 2ème), on constate que plus on a de clusters , plus le score de silhouette diminue (globalement).
    Or, dès 3 clusters, on arrive à un score très bas. Un 4ème cluster ne fait pas diminuer ce score, il le fait même monter.
    Donc il semblerait qu'il faille faire 3 clusters.
    D'ailleurs, on se doute qu'on aura un cluster Macron+Pécresse, un autre Le Pen et un autre Mélenchon.
    Et si tu veux partager tes résultats, c'est un sujet qui m'intéresse beaucoup, et je serais très content de voir ce que ça donne (par message privé si tu préfères).
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  3. #3
    Candidat au Club
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juillet 2024
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Indre (Centre)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2024
    Messages : 2
    Points : 2
    Points
    2
    Par défaut
    Citation Envoyé par tbc92 Voir le message
    Je ne connais pas ces 2 indicateurs.
    Mais en regardant les graphiques (en particulier le 2ème), on constate que plus on a de clusters , plus le score de silhouette diminue (globalement).
    Or, dès 3 clusters, on arrive à un score très bas. Un 4ème cluster ne fait pas diminuer ce score, il le fait même monter.
    Donc il semblerait qu'il faille faire 3 clusters.
    D'ailleurs, on se doute qu'on aura un cluster Macron+Pécresse, un autre Le Pen et un autre Mélenchon.
    Et si tu veux partager tes résultats, c'est un sujet qui m'intéresse beaucoup, et je serais très content de voir ce que ça donne (par message privé si tu préfères).
    Merci beaucoup pour ta réponse et ton analyse. Je vais en effet partir sur 3 clusters. Je t'enverrai mes résultats une fois que j'aurai terminé, sûrement dans la journée. Si cela t'intéresse, j'ai également réalisé une ACP ainsi qu'une régression linéaire sur le taux d'abstention.

    Bonne journée !

Discussions similaires

  1. [Python 3.X] Problème d'affichage des paramètres d'analyse des sentiments ( precision,recall,F1-score)
    Par mouncef dans le forum Calcul scientifique
    Réponses: 0
    Dernier message: 01/10/2020, 17h43
  2. Uniformiser l'IA, l'analyse et le CHP sur un seul cluster, un livre blanc par Intel
    Par Community Management dans le forum Intelligence artificielle
    Réponses: 0
    Dernier message: 14/03/2019, 15h12
  3. Qu'est ce qu'une analyse fonctionelle
    Par sandrine dans le forum Débats sur le développement - Le Best Of
    Réponses: 22
    Dernier message: 28/02/2015, 19h03
  4. Réponses: 5
    Dernier message: 06/07/2012, 08h22
  5. Outil d'analyse de code
    Par Bloon dans le forum Outils
    Réponses: 8
    Dernier message: 07/08/2007, 09h04

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo