IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS STAT Discussion :

Modèle optimal en regression logistique


Sujet :

SAS STAT

  1. #1
    Membre régulier
    Inscrit en
    Février 2009
    Messages
    268
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 268
    Points : 88
    Points
    88
    Par défaut Modèle optimal en regression logistique
    Bonjour,
    Je voudrais savoir comment obtenir le modèle optimal en utilisant la RL.
    est ce qu'une fois j'obtiens mon modèle avec les variables significatives , je dois le faire tourner une deuxième fois en gardant uniquement ces variables significatives ?

  2. #2
    Membre actif
    Homme Profil pro
    Inscrit en
    Février 2013
    Messages
    347
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Février 2013
    Messages : 347
    Points : 235
    Points
    235
    Par défaut
    Bonjour,

    Je ne suis pas certain d'avoir tout saisi à ta question. Quand tu dis "une fois j'obtiens mon modèle avec les variables significatives", je suppose que tu veux parler de tes variables candidates à la sélection ?

    Il existe plusieurs méthodes de sélection de variables pour un modèle logistique. Par exemple la méthode pas à pas descendante.
    Il faut d'abord sélectionner les variables candidates (tu fixes une p-valeur, généralement au dessus de 0,05 pour maximiser ta puissance).
    Ensuite, retirer du modèle la variable avec la p-valeur la plus élevée (et seulement celle-là). Il faut ensuite faire tourner le modèle encore une fois, retirer la variable la moins significative, jusqu'à l'obtention d'un modèle avec uniquement des associations significatives.

    SAS gère plusieurs méthodes directement (le pas à pas descendant et l'ascendant je crois). Toutefois, une méthode automatique a ses limites. Pour diverses raisons, tu peux avoir envie/besoin de laisser certaines variables dans ton modèle (facteurs de stratification par exemple) même si elles ne sont pas ou plus significatives à un moment donné. Le mieux pour moi reste de faire ça à l'ancienne et supprimer toi-même du modèle la variable avec la p-valeur la plus haute, et de relancer la PROC LOGISTIC.

  3. #3
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 157
    Points
    16 157
    Par défaut
    Comme l'a bien dit alers, il existe de très nombreuses méthodes de sélection de modèles.

    Certaines sont automatiques et gérées par SAS et d'autres sont manuels et gérées moins facilement par SAS !

    Tu dois aussi te poser la question de la finalité de ton modèle : description ou prédiction ; car dans ces deux cas les outils pour considérer qu'un modèle est optimal diffèrent.

  4. #4
    Membre régulier
    Inscrit en
    Février 2009
    Messages
    268
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 268
    Points : 88
    Points
    88
    Par défaut
    Merci pour vos réponses.

    Pour apporter plus de détails à ma question, j'ai un modèle de description, c'est à dire je veux déterminer les facteurs les plus déterminants dans mon choix.

    j'ai choisi également la méthode de sélection STEPWISE .

    Ma question est de savoir si les résultats obtenus sont ceux du modèle optimal (je garde bien sur uniquement les variables dont le p_value<0.05), ou bien je dois faire une autre chose ?

  5. #5
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 157
    Points
    16 157
    Par défaut
    Bonjour,
    Une fois ton modèle optimal obtenu (par exemple par la méthode STEPWISE), tu l’interprètes ; c'est-à-dire que tu regardes l'influence des variables sélectionnées sur ta probabilité d'avoir l'évènement d'intérêt (Y=1).
    Dans ce modèle final, certaines variables vont avoir une influence directe (p-value<0.5) sur l'évènement d'intérêt (Y=1) et d'autres pas (Y=0).

  6. #6
    Membre régulier
    Inscrit en
    Février 2009
    Messages
    268
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 268
    Points : 88
    Points
    88
    Par défaut
    donc si j'ai bien compris:

    dans le dernier tableau que j'obtiens intitulé "estimation des rapports de cotes", je garde les variables dont l'IC ne contient pas "1" (qui correspondent à p_value<0.05 n'est ce pas ?)

    et après les Odds ratios m'aident à déterminer l'ampleur de l'influence de mes variables explicatives sur la variable à expliquer.

  7. #7
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 157
    Points
    16 157
    Par défaut
    En fait dans ton tableau final, tu gardes toutes tes variables et tu n’interprètes que celles qui sont significatives.

    En effet si tu supprimes de ton tableau final les variables non significatives, le lecteur de ton tableau ne saura pas que tu a pris en compte ces variables dans ton analyse et supposera que ton modèle final est juste celui ou tu as tes variables significatives ; ce qui n'est pas le cas.

  8. #8
    Membre régulier
    Inscrit en
    Février 2009
    Messages
    268
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 268
    Points : 88
    Points
    88
    Par défaut
    ok, c'est compris

    est ce que je peux savoir c'est quoi la relation entre p_value<0.05 et IC ne contenant pas "1" ?

  9. #9
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 157
    Points
    16 157
    Par défaut
    Ca veut dire la même chose lorsque ton intervalle de confiance est au niveau 5%.

  10. #10
    Membre régulier
    Inscrit en
    Février 2009
    Messages
    268
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 268
    Points : 88
    Points
    88
    Par défaut
    je parle de l'IC des odds ratios

  11. #11
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 157
    Points
    16 157
    Par défaut
    C'est la même chose car la fonction exponentielle est strictement croissante !

  12. #12
    Membre régulier
    Inscrit en
    Février 2009
    Messages
    268
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 268
    Points : 88
    Points
    88
    Par défaut
    Désolé, mais je n'ai toujours pas compris

  13. #13
    Membre actif
    Homme Profil pro
    Inscrit en
    Février 2013
    Messages
    347
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Février 2013
    Messages : 347
    Points : 235
    Points
    235
    Par défaut
    Dans ta régression logistique, si tu observes un OR avec une p-valeur inférieure à 0,05, tu dois en toute logique avoir un IC (niveau de confiance 95%) associé qui ne contient pas la valeur 1,0.
    Inversement, si ta p-valeur est supérieure ) 0,05, l'IC à 95% contiendra la valeur 1,0.

    Attention je parle bien de la p-valeur d'un OR et pas de la p-valeur de ton modèle final (type 3 par exemple).

  14. #14
    Membre régulier
    Inscrit en
    Février 2009
    Messages
    268
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 268
    Points : 88
    Points
    88
    Par défaut
    mais d'où vient la valeur "1" ?

  15. #15
    Membre habitué
    Homme Profil pro
    Inscrit en
    Novembre 2008
    Messages
    108
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Novembre 2008
    Messages : 108
    Points : 181
    Points
    181
    Par défaut
    Bonjour,

    Pour comprendre pourquoi la valeur 1, je te propose de regarder ce lien :
    http://www.ats.ucla.edu/stat/mult_pk...odds_ratio.htm

    Et plus particulierement ce passage :
    From probability to odds to log of odds
    Everything starts with the concept of probability. Let's say that the probability of success of some event is .8. Then the probability of failure is 1- .8 = .2. The odds of success are defined as the ratio of the probability of success over the probability of failure. In our example, the odds of success are .8/.2 = 4. That is to say that the odds of success are 4 to 1. If the probability of success is .5, i.e., 50-50 percent chance, then the odds of success is 1 to 1.

    Cordialement,

  16. #16
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 157
    Points
    16 157
    Par défaut
    Citation Envoyé par cococmoi Voir le message
    mais d'où vient la valeur "1" ?
    Bonjour,
    En fait tu regardes si ton coefficient Beta à un effet, c'est-à-dire Beta est-il significativement différent de 0.
    Par analogie avec un modèle de régression linéaire simple du type Y=aX+b,
    • X a un effet sur Y si a est strictement différent de 0
    • si X n'a pas d'effet sur Y alors a n'est pas strictement différent de 0 et le modèle peut alors s'écrire Y=b

    Dans le cas du modèle logistique, les OR sont égaux à l'exponentielle des Beta, or exp(0)=1, cqfd.

  17. #17
    Membre régulier
    Inscrit en
    Février 2009
    Messages
    268
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 268
    Points : 88
    Points
    88
    Par défaut
    merci beaucoup pour vos réponses.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 1
    Dernier message: 11/09/2011, 11h28
  2. Pertinence du modèle apres une regression logistique
    Par koulifanya dans le forum SAS STAT
    Réponses: 1
    Dernier message: 09/08/2011, 21h31
  3. Regression logistique hierarchique (mixe) et SAS
    Par elfidream dans le forum SAS STAT
    Réponses: 1
    Dernier message: 27/04/2010, 11h33
  4. regression logistique et SAS v9.1/SEM v4.3
    Par alex_kid dans le forum SAS STAT
    Réponses: 4
    Dernier message: 27/03/2009, 15h07
  5. Réponses: 8
    Dernier message: 26/02/2009, 16h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo