Utiliser la méthode de validation croisée à k plis

**abidineb** · 05/11/2010, 11h05

Bonjour
J'espère que quel qu'un d'entre vous peut m'éclairer sur ce probleme.
j'ai une grande base de données. j'ai divisé aléatoirement en laissant une partie pour l'apprentissage et une partie pour le test.
après pour la validation des paramètres j'ai utilise l'ensemble d'apprentissage seulement en utilisant la k cross validation.
Mais le prof dit que c'est faux, puisque on a une grande base de donnée, on peut directement subdiviser la base en trois ensembles (apprentissage,test et validation) mieux que de faire le k-fold ???? comment ca? et comment ca marche cette méthode (apprentissage,test et validation)

Merci

**ToTo13** · 08/11/2010, 13h45

Bonjour,
c'est tout simplement une sorte de 2-fold.

**vinzzzz** · 09/11/2010, 15h33

A ma connaissance, l'idée est de définir ton modèle en utilisant un jeux d'apprentissage, de l'optimiser en terme de prédiction externe avec un jeux de Test, et de le valider ensuite avec un sous ensemble qui n'a jamais été considéré par le protocole utilisé pour définir le modèle.

Les méthodes de validation croisées (Leave one out, ou Leave many out qui corresponds ici à ton K-fold), ne permettent qu'une validation "interne", dans le sens où ton modèle sera au final définit avec l'ensemble des données utilisées pour ta validation croisée. Tu ne saura pas au final si ton modèle est capable d'extrapoler et de prédire des données qu'il n'a pas vu durant l'apprentissage.

La division en Apprentissage, Test et Validation permet de tester la qualité de prédiciton interne ET externe de ton modèle, et en effet c'est plus facile quand il y a beaucoup de données.

**Aleph69** · 11/11/2010, 15h11

Bonjour,

les méthodes de rééchantillonnage (jacknife, bootstrap, cross-validation, etc) sont utilisées pour valider une modèle lorsque le nombre d'individus de ta base de données n'est pas suffisamment élevé pour obtenir une estimation "précise" de l'erreur moyenne de prédiction, i.e. que l'écart-type associé est grand.

Je ne pense pas que ton prof dise que c'est faux : il dit plutôt que ce n'est pas utile dans la mesure où le rééchantillonnage coûte très cher en temps de calcul.

Lorsqu'on a une base de donnée suffisamment grande, on peut se permettre de la découper en trois sous-bases : une base d'apprentissage (80% des individus par ex), une base de validation (10% des individus par ex) et une base de test (10% des individus par ex). Bien sûr, les individus qui apparaissent dans l'un de ses bases ne doivent apparaître dans aucune des deux autres.

Ensuite, tu construis plusieurs modèles avec la base d'apprentissage, chaque modèle correspondant à un jeu de paramètres particulier (sélection de modèle). Tu évalues les performances de chaque modèle sur la base de validation et tu sélectionnes le meilleur. Tu peux ensuite évaluer ses performances en généralisation sur la base de test. Les bases de validation et de test doivent être distinctes sinon l'estimation des performances de ton modèle en généralisation sera biaisée.

**abidineb** · 12/11/2010, 23h03

Bonjour,
Vous dites une sorte de 2-fold (moyenne de deux erreurs).
C'est pas plutôt 1-fold (on calcule une erreur)????
Merci
Cordialement

**abidineb** · 12/11/2010, 23h11

Bonjour,
Vous dites :
les méthodes de rééchantillonnages sont utilisées pour valider un modèle lorsque le nombre d'individus n'est pas suffisamment élevé pour obtenir une estimation "précise" de l'erreur moyenne de prédiction.

Ma question est la suivante:
Si on a un assez grand nombre de données, est ce que la performance de généralisation ne sera pas meilleure avec la k-fold par rapport a la simple division 1-fold (app+val+test)?????
Donc même si sa coute très cher, elle donne de bon résultats par rapport a la simple division????????

**Aleph69** · 13/11/2010, 19h00

Bonsoir,

il n'y a pas de réponse définitive à la question. Cela dépend d'abord du paramètre "k" de la validation croisée. Un statisticien rigoureux dirait sans doute que la véritable validation croisée est pour k=n-1, le nombre n désignant la taille de l'échantillon. La validation croisée telle qu'on l'utilise en pratique (k=5 ou k=10) est en fait peu performante du point de vue de l'estimation statistique mais beaucoup moins coûteuse. Il existe toute une littérature sur la comparaison théorique et empirique des méthodes de rééchantillonnage mais je ne connais pas bien le domaine pour vous orienter vers une meilleure approche. Certains préfèrent utiliser le bootstrap... Il y a beaucoup d'autres problèmes qui peuvent détériorer la validation croisée, comme par exemple lorsque la base de données initiale est fortement déséquilibrée (classes d'individus très rares).

L'hypothèse "si on a un assez grand nombre de données" est plutôt favorable à l'approche directe par découpage apprentissage+validation+test. C'est le principe général des statistiques inférentielles qui veut cela (loi des grands nombres, etimateurs asymptotiquement non biaisés, intervalles de confiance dépendant de la taille de l'échantillon). Notez que si vous ne cherchez pas à faire de la sélection de modèle, mais simplement à estimer les performances d'un modèle particulier, la base de validation n'a pas lieu d'être créée. La vraie question pour vous est "a-t-on un assez grand nombre de données pour se passer d'un rééchantillonnage?", qui implique que vous ayez déjà répondu à la question "à partir de quel seuil de tolérance puis-je considérer que mon estimation est acceptable?".

Enfin, si vous faites de la recherche et que vous comptez publier un article vantant les performances d'un algorithme d'apprentissage statistiques quelconque, j'aurais tendance à vous conseiller l'approche par rééchantillonnage qui rassure les rapporteurs en général. Dans ce cas, il faut donner la moyenne empirique des estimations obtenues sur chaque k-fold et également l'écart-type. Vous pouvez aussi donner la précision, le rappel et la f-mesure si vous regardez un taux d'erreur de classement.

Si vous souhaitez découvrir la théorie du rééchantillonnage, il vous faut des bases en statistiques inférentielles et un livre sur le sujet :
http://www.amazon.com/s/ref=nb_sb_no...mpling+methods
Une référence classique en la matière est le livre de Efron :
Amazon.com: The Jackknife, the Bootstrap, and Other Resampling Plans (CBMS-NSF Regional Conference Series in Applied Mathematics) (9780898711790): Bradley Efron: Books@@AMEPARAM@@http://ecx.images-amazon.com/images/I/41uv%2B7HuaiL.@@AMEPARAM@@41uv%2B7HuaiL
Il propose également un ouvrage très connu sur le bootstrap :
Amazon.com: An Introduction to the Bootstrap (Chapman & Hall/CRC Monographs on Statistics & Applied Probability) (9780412042317): Bradley Efron, R.J. Tibshirani: Books: Reviews, Prices & more@@AMEPARAM@@http://ecx.images-amazon.com/images/I/413Xkyq2%2BRL.@@AMEPARAM@@413Xkyq2%2BRL

Bon courage.

**abidineb** · 15/11/2010, 01h00

Bonsoir,
Merci, t'as répondu a ma question.
Cordialement.

Utiliser la méthode de validation croisée à k plis

Méthodes prédictives

Discussions similaires

Partager

Partager