IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS STAT Discussion :

Classification sur grosse base de données


Sujet :

SAS STAT

  1. #1
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2014
    Messages
    52
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Février 2014
    Messages : 52
    Points : 24
    Points
    24
    Par défaut Classification sur grosse base de données
    Bonjour, pour un projet que je dois réaliser, j'ai la problématique suivante:

    Je cherche à établir une classification de véhicules suivant les caractéristiques intrinseques des véhicules (puissance,vitesse max,cylindrée etc..)
    J'ai a ma disposition une base de données de plus de 150.000 individus.

    Idéalement, j'aurais aimé réalisé une CAH sur les individus, analyser les graphes d'aides à l'interprétation et conclure sur le nombre de classes optimales (qui doit quand meme rester faible).
    Cependant, faire une CAH avec une grosse base de données est impossible donc à ce moment la j'ai cherché à contourner ce problème:

    -Réaliser dans un premier temps, un échantillonage pour récuperer un nombre assez faible d'individus et faire ma classif dessus.
    Deux problèmes se posent alors: comment déterminer cet échantillon (de façon aléatoire?) et comment répartir les individus dans mes classes après la CAH.

    - J'ai pu voir que certains réalisent une classification k-means puisqu'elle supporte un gros nombre d'individus et ensuite réalisent une CAH (classification mixte)

    Bref, toute bonne idée ou commentaire serait le bienvenue =)

  2. #2
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 155
    Points
    1 155
    Billets dans le blog
    2
    Par défaut
    Bonjour,

    Je vois aussi d'autres voies possibles. La réduction de dimension avec une ACP et toutes les méthodes qui en dérive. L'intérêt est d'avoir moins de paramètres.

    Cordialement.

  3. #3
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2014
    Messages
    52
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Février 2014
    Messages : 52
    Points : 24
    Points
    24
    Par défaut
    Bonjour,
    je ne pense pas que le problème vienennt des variables.
    Effectivement je peux à priori utiliser des techniques d'analyse factorielle pour réduire le nombre de variables mais j'en ai deja 6 qui je pense apportent chacun une information.

    Ce qui me dérange, en soit, c'est le très grand nombre d'individus à classer (j'ai toujours réaliser mes classif avec au plus une 100aine d'individus).

  4. #4
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 155
    Points
    1 155
    Billets dans le blog
    2
    Par défaut
    Re,

    J'ai du mal à croire qu'un logiciel comme SAS n'arrive pas à traiter un fichier qui tient dans Excel. N'étant pas expert de cette solution, je vous laisse le doute. Je peux vous conseiller des algorithmes pour les gros volumes de données, mais je ne pense pas que vous êtes dans ce cas. Mais si cela vous intéresse par curiosité. Voilà un lien qui peut vous aider. Les résultats du moteur de recherche sont clusterisés. Carrot2

    Bien à vous,

  5. #5
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2014
    Messages
    52
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Février 2014
    Messages : 52
    Points : 24
    Points
    24
    Par défaut
    C'est surtout que SAS ne supporte pas une procédure cluster pour un nombre d'individus important (ou en tout cas c'est extremement lent).
    C'est pour ca qu'une des alternatives possibles est de passer par une proc fastclus dans un premier temps....

    Bref, je vais essayer de me documenter sur internet.
    merci pour le lien

  6. #6
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2014
    Messages
    52
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Février 2014
    Messages : 52
    Points : 24
    Points
    24
    Par défaut
    Dernière petite question:

    Je réalise une ACP pour visualiser graphiquement les regroupements obtenus grâce à la CAH en mettant comme label le numéro de la classe.
    Y'a t'il un moyen de dessiner le contour de ces groupes pour vraiment avoir sur le dessin une frontière entre les partitions ?
    Je sais que c'est réalisable sur R mais je trouve aucune info à ce propos pour SAS....

Discussions similaires

  1. Utiliser LEFT JOIN sur une grosse base de données
    Par bractar dans le forum Requêtes
    Réponses: 20
    Dernier message: 11/01/2014, 07h32
  2. Réponses: 10
    Dernier message: 19/04/2013, 11h04
  3. Conseil sur choix base de donnée "individuelle"
    Par Rica dans le forum Décisions SGBD
    Réponses: 5
    Dernier message: 12/05/2005, 13h16
  4. triggers sur plusieurs bases de données
    Par Shabata dans le forum Langage SQL
    Réponses: 2
    Dernier message: 04/05/2004, 10h02
  5. [Crystal] Performance sur grosses base de données
    Par Nico118 dans le forum SAP Crystal Reports
    Réponses: 5
    Dernier message: 14/11/2003, 15h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo