IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Conception/Modélisation Discussion :

Conseil pour le data mining svp


Sujet :

Conception/Modélisation

  1. #1
    Membre éprouvé Avatar de TallyHo
    Homme Profil pro
    Lutin numérique
    Inscrit en
    Février 2006
    Messages
    1 053
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Lutin numérique

    Informations forums :
    Inscription : Février 2006
    Messages : 1 053
    Points : 1 052
    Points
    1 052
    Par défaut Conseil pour le data mining svp
    Hello,

    J'ai un projet perso que j'héberge sur serveur linux. Pour l'instant, le script est en Python et la BDD est MySQL. Je voudrais me lancer dans le data mining. Pour MySQL, je n'ai pas vu grand chose.

    A votre avis, quels sont les meilleurs compromis BDD/Logiciels pour faire du data mining (quittes à migrer la BDD existante) ?

    Etant donné que c'est un projet perso, ne me répondez pas Oracle qui serait surdimensionné pour moi je pense et vu le prix... Je cherche un bon compromis pour un usage intensif et sérieux pour un particulier.

    Merci

    PS : Pas obligé que ce soit gratuit ou gpl si le coût est raisonnable mais si c'est gratuit, ce sera le bonus

  2. #2
    Membre éprouvé Avatar de Jester
    Inscrit en
    Septembre 2003
    Messages
    813
    Détails du profil
    Informations forums :
    Inscription : Septembre 2003
    Messages : 813
    Points : 1 057
    Points
    1 057
    Par défaut
    Mysql/Weka me semble le couple le plus crédible.

    Le problème c'est rarement la BD, vu que rien ne se passe directement dans la BD (sauf à acheter des produits de KXEN, mais le prix sans rapport).

    C'est pour faire quoi précisément?

  3. #3
    Membre éprouvé Avatar de TallyHo
    Homme Profil pro
    Lutin numérique
    Inscrit en
    Février 2006
    Messages
    1 053
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Lutin numérique

    Informations forums :
    Inscription : Février 2006
    Messages : 1 053
    Points : 1 052
    Points
    1 052
    Par défaut
    Je récupéres des infos numériques sur des sites et je voudrais faire des corrélations entre les données. Corrélations que je ne vois pas forcemment avec de simples stats.
    Par exemple, je dis n'importe quoi, imagines que je récupéres la météo du jour et le % de rhumes, ça me sortirait une forte corrélation entre rhume et un temps froid.
    Bon là je schématise mais ça sert bien à ça le datamining non ? Parceque si je fais fausse route, il faut me le dire

    J'ai trouvé ça comme lien sur le forum : http://www.pentaho.com/
    Mais comme c'est un secteur que je ne connais pas du tout au niveau logiciel, je préfére demander

  4. #4
    Membre éprouvé Avatar de Jester
    Inscrit en
    Septembre 2003
    Messages
    813
    Détails du profil
    Informations forums :
    Inscription : Septembre 2003
    Messages : 813
    Points : 1 057
    Points
    1 057
    Par défaut
    Citation Envoyé par TallyHo Voir le message
    Je récupéres des infos numériques sur des sites et je voudrais faire des corrélations entre les données. Corrélations que je ne vois pas forcemment avec de simples stats.
    Par exemple, je dis n'importe quoi, imagines que je récupéres la météo du jour et le % de rhumes, ça me sortirait une forte corrélation entre rhume et un temps froid.
    Bon là je schématise mais ça sert bien à ça le datamining non ? Parceque si je fais fausse route, il faut me le dire
    En effet, le jeu de données de base, c'est justement de prévoir en fonction de la météo si l'on peut jouer au tennis (au badminton? je ne sais plus)

    Par exemple les donnés :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    @relation weather
     
    @attribute outlook {sunny, overcast, rainy}
    @attribute temperature real
    @attribute humidity real
    @attribute windy {TRUE, FALSE}
    @attribute play {yes, no}
     
    @data
    sunny,85,85,FALSE,no
    sunny,80,90,TRUE,no
    overcast,83,86,FALSE,yes
    rainy,70,96,FALSE,yes
    rainy,68,80,FALSE,yes
    rainy,65,70,TRUE,no
    overcast,64,65,TRUE,yes
    sunny,72,95,FALSE,no
    sunny,69,70,FALSE,yes
    rainy,75,80,FALSE,yes
    sunny,75,70,TRUE,yes
    overcast,72,90,TRUE,yes
    overcast,81,75,FALSE,yes
    rainy,71,91,TRUE,no
    On peut obtenir avec Weka l'arbre de décision suivant :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    outlook = sunny
    |   humidity <= 75: yes (2.0)
    |   humidity > 75: no (3.0)
    outlook = overcast: yes (4.0)
    outlook = rainy
    |   windy = TRUE: no (2.0)
    |   windy = FALSE: yes (3.0)
    Où on peut lire que quand il fait beau et qu'il n'y a pas trop d'humidité, on peut jouer.

    Bon c'est un exemple très bateau qui ne sert pas trop.


    Pas la peine de sortir du Pentaho, ce serait se compliquer la vie, d'autant qu'il n'apporterais rien.

  5. #5
    Membre éprouvé Avatar de TallyHo
    Homme Profil pro
    Lutin numérique
    Inscrit en
    Février 2006
    Messages
    1 053
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Lutin numérique

    Informations forums :
    Inscription : Février 2006
    Messages : 1 053
    Points : 1 052
    Points
    1 052
    Par défaut
    Ok merci

    Et connais tu Tanagra et Sipina ?
    Si tu devais choisir un des 3 : Weka Tanagra Sipina ?

  6. #6
    Membre éprouvé Avatar de Jester
    Inscrit en
    Septembre 2003
    Messages
    813
    Détails du profil
    Informations forums :
    Inscription : Septembre 2003
    Messages : 813
    Points : 1 057
    Points
    1 057
    Par défaut
    Weka sans hésiter.

  7. #7
    Membre éprouvé Avatar de TallyHo
    Homme Profil pro
    Lutin numérique
    Inscrit en
    Février 2006
    Messages
    1 053
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Lutin numérique

    Informations forums :
    Inscription : Février 2006
    Messages : 1 053
    Points : 1 052
    Points
    1 052
    Par défaut
    Ok merci m'sieur

    Je vais me pencher dessus ce soir, en espérant que ce ne soit pas trop dur à prendre en main. Ce n'est pas que la difficulté me fasse peur mais j'ai la tête un peu gonflée à force de lire des trucs sur le mining

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Conseil pour un logiciel Data mining open source
    Par Prunette dans le forum Statistiques, Data Mining et Data Science
    Réponses: 4
    Dernier message: 28/08/2012, 15h57
  2. Réponses: 10
    Dernier message: 05/06/2012, 21h50
  3. Données et document pour le data mining
    Par inforum dans le forum Conception/Modélisation
    Réponses: 1
    Dernier message: 12/02/2010, 17h54
  4. Réponses: 1
    Dernier message: 29/10/2008, 13h04
  5. un logiciel gratuit pour le data mining
    Par JauB dans le forum Statistiques, Data Mining et Data Science
    Réponses: 10
    Dernier message: 24/02/2008, 12h58

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo