IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes prédictives Discussion :

Utiliser la méthode de validation croisée à k plis


Sujet :

Méthodes prédictives

  1. #1
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut Utiliser la méthode de validation croisée à k plis
    Bonjour
    J'espère que quel qu'un d'entre vous peut m'éclairer sur ce probleme.
    j'ai une grande base de données. j'ai divisé aléatoirement en laissant une partie pour l'apprentissage et une partie pour le test.
    après pour la validation des paramètres j'ai utilise l'ensemble d'apprentissage seulement en utilisant la k cross validation.
    Mais le prof dit que c'est faux, puisque on a une grande base de donnée, on peut directement subdiviser la base en trois ensembles (apprentissage,test et validation) mieux que de faire le k-fold ???? comment ca? et comment ca marche cette méthode (apprentissage,test et validation)

    Merci

  2. #2
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,
    c'est tout simplement une sorte de 2-fold.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  3. #3
    Membre habitué
    Inscrit en
    Janvier 2005
    Messages
    491
    Détails du profil
    Informations forums :
    Inscription : Janvier 2005
    Messages : 491
    Points : 172
    Points
    172
    Par défaut
    A ma connaissance, l'idée est de définir ton modèle en utilisant un jeux d'apprentissage, de l'optimiser en terme de prédiction externe avec un jeux de Test, et de le valider ensuite avec un sous ensemble qui n'a jamais été considéré par le protocole utilisé pour définir le modèle.

    Les méthodes de validation croisées (Leave one out, ou Leave many out qui corresponds ici à ton K-fold), ne permettent qu'une validation "interne", dans le sens où ton modèle sera au final définit avec l'ensemble des données utilisées pour ta validation croisée. Tu ne saura pas au final si ton modèle est capable d'extrapoler et de prédire des données qu'il n'a pas vu durant l'apprentissage.

    La division en Apprentissage, Test et Validation permet de tester la qualité de prédiciton interne ET externe de ton modèle, et en effet c'est plus facile quand il y a beaucoup de données.

  4. #4
    Membre expérimenté
    Homme Profil pro
    Chercheur
    Inscrit en
    Mars 2010
    Messages
    1 218
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Chercheur

    Informations forums :
    Inscription : Mars 2010
    Messages : 1 218
    Points : 1 685
    Points
    1 685
    Par défaut
    Bonjour,

    les méthodes de rééchantillonnage (jacknife, bootstrap, cross-validation, etc) sont utilisées pour valider une modèle lorsque le nombre d'individus de ta base de données n'est pas suffisamment élevé pour obtenir une estimation "précise" de l'erreur moyenne de prédiction, i.e. que l'écart-type associé est grand.

    Je ne pense pas que ton prof dise que c'est faux : il dit plutôt que ce n'est pas utile dans la mesure où le rééchantillonnage coûte très cher en temps de calcul.

    Lorsqu'on a une base de donnée suffisamment grande, on peut se permettre de la découper en trois sous-bases : une base d'apprentissage (80% des individus par ex), une base de validation (10% des individus par ex) et une base de test (10% des individus par ex). Bien sûr, les individus qui apparaissent dans l'un de ses bases ne doivent apparaître dans aucune des deux autres.

    Ensuite, tu construis plusieurs modèles avec la base d'apprentissage, chaque modèle correspondant à un jeu de paramètres particulier (sélection de modèle). Tu évalues les performances de chaque modèle sur la base de validation et tu sélectionnes le meilleur. Tu peux ensuite évaluer ses performances en généralisation sur la base de test. Les bases de validation et de test doivent être distinctes sinon l'estimation des performances de ton modèle en généralisation sera biaisée.

  5. #5
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    Bonjour,
    Vous dites une sorte de 2-fold (moyenne de deux erreurs).
    C'est pas plutôt 1-fold (on calcule une erreur)????
    Merci
    Cordialement

  6. #6
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    Bonjour,
    Vous dites :
    les méthodes de rééchantillonnages sont utilisées pour valider un modèle lorsque le nombre d'individus n'est pas suffisamment élevé pour obtenir une estimation "précise" de l'erreur moyenne de prédiction.

    Ma question est la suivante:
    Si on a un assez grand nombre de données, est ce que la performance de généralisation ne sera pas meilleure avec la k-fold par rapport a la simple division 1-fold (app+val+test)?????

    Donc même si sa coute très cher, elle donne de bon résultats par rapport a la simple division????????

  7. #7
    Membre expérimenté
    Homme Profil pro
    Chercheur
    Inscrit en
    Mars 2010
    Messages
    1 218
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Chercheur

    Informations forums :
    Inscription : Mars 2010
    Messages : 1 218
    Points : 1 685
    Points
    1 685
    Par défaut
    Bonsoir,

    il n'y a pas de réponse définitive à la question. Cela dépend d'abord du paramètre "k" de la validation croisée. Un statisticien rigoureux dirait sans doute que la véritable validation croisée est pour k=n-1, le nombre n désignant la taille de l'échantillon. La validation croisée telle qu'on l'utilise en pratique (k=5 ou k=10) est en fait peu performante du point de vue de l'estimation statistique mais beaucoup moins coûteuse. Il existe toute une littérature sur la comparaison théorique et empirique des méthodes de rééchantillonnage mais je ne connais pas bien le domaine pour vous orienter vers une meilleure approche. Certains préfèrent utiliser le bootstrap... Il y a beaucoup d'autres problèmes qui peuvent détériorer la validation croisée, comme par exemple lorsque la base de données initiale est fortement déséquilibrée (classes d'individus très rares).

    L'hypothèse "si on a un assez grand nombre de données" est plutôt favorable à l'approche directe par découpage apprentissage+validation+test. C'est le principe général des statistiques inférentielles qui veut cela (loi des grands nombres, etimateurs asymptotiquement non biaisés, intervalles de confiance dépendant de la taille de l'échantillon). Notez que si vous ne cherchez pas à faire de la sélection de modèle, mais simplement à estimer les performances d'un modèle particulier, la base de validation n'a pas lieu d'être créée. La vraie question pour vous est "a-t-on un assez grand nombre de données pour se passer d'un rééchantillonnage?", qui implique que vous ayez déjà répondu à la question "à partir de quel seuil de tolérance puis-je considérer que mon estimation est acceptable?".

    Enfin, si vous faites de la recherche et que vous comptez publier un article vantant les performances d'un algorithme d'apprentissage statistiques quelconque, j'aurais tendance à vous conseiller l'approche par rééchantillonnage qui rassure les rapporteurs en général. Dans ce cas, il faut donner la moyenne empirique des estimations obtenues sur chaque k-fold et également l'écart-type. Vous pouvez aussi donner la précision, le rappel et la f-mesure si vous regardez un taux d'erreur de classement.

    Si vous souhaitez découvrir la théorie du rééchantillonnage, il vous faut des bases en statistiques inférentielles et un livre sur le sujet :
    http://www.amazon.com/s/ref=nb_sb_no...mpling+methods
    Une référence classique en la matière est le livre de Efron :
    Amazon.com: The Jackknife, the Bootstrap, and Other Resampling Plans (CBMS-NSF Regional Conference Series in Applied Mathematics) (9780898711790): Bradley Efron: Books@@AMEPARAM@@http://ecx.images-amazon.com/images/I/41uv%2B7HuaiL.@@AMEPARAM@@41uv%2B7HuaiL
    Il propose également un ouvrage très connu sur le bootstrap :
    Amazon.com: An Introduction to the Bootstrap (Chapman & Hall/CRC Monographs on Statistics & Applied Probability) (9780412042317): Bradley Efron, R.J. Tibshirani: Books: Reviews, Prices & more@@AMEPARAM@@http://ecx.images-amazon.com/images/I/413Xkyq2%2BRL.@@AMEPARAM@@413Xkyq2%2BRL

    Bon courage.

  8. #8
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    Bonsoir,
    Merci, t'as répondu a ma question.
    Cordialement.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 2
    Dernier message: 11/12/2014, 07h51
  2. Quand et dans quels cas utiliser les méthodes repaint() et validate()?
    Par kayzra dans le forum Interfaces Graphiques en Java
    Réponses: 14
    Dernier message: 02/08/2007, 15h46
  3. utiliser une méthode en callback
    Par inertia dans le forum MFC
    Réponses: 3
    Dernier message: 23/06/2005, 17h56
  4. Utiliser les méthodes des boutons crées en rafale.
    Par kabouns dans le forum Composants
    Réponses: 8
    Dernier message: 03/12/2004, 10h48
  5. Formulaire utilisant la méthode POST + popup
    Par Hell dans le forum Balisage (X)HTML et validation W3C
    Réponses: 5
    Dernier message: 27/10/2004, 13h34

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo