Modèle optimal en regression logistique

**cococmoi** · 13/02/2014, 13h33

Bonjour,
Je voudrais savoir comment obtenir le modèle optimal en utilisant la RL.
est ce qu'une fois j'obtiens mon modèle avec les variables significatives , je dois le faire tourner une deuxième fois en gardant uniquement ces variables significatives ?

**alers** · 13/02/2014, 16h39

Bonjour,

Je ne suis pas certain d'avoir tout saisi à ta question. Quand tu dis "une fois j'obtiens mon modèle avec les variables significatives", je suppose que tu veux parler de tes variables candidates à la sélection ?

Il existe plusieurs méthodes de sélection de variables pour un modèle logistique. Par exemple la méthode pas à pas descendante.
Il faut d'abord sélectionner les variables candidates (tu fixes une p-valeur, généralement au dessus de 0,05 pour maximiser ta puissance).
Ensuite, retirer du modèle la variable avec la p-valeur la plus élevée (et seulement celle-là). Il faut ensuite faire tourner le modèle encore une fois, retirer la variable la moins significative, jusqu'à l'obtention d'un modèle avec uniquement des associations significatives.

SAS gère plusieurs méthodes directement (le pas à pas descendant et l'ascendant je crois). Toutefois, une méthode automatique a ses limites. Pour diverses raisons, tu peux avoir envie/besoin de laisser certaines variables dans ton modèle (facteurs de stratification par exemple) même si elles ne sont pas ou plus significatives à un moment donné. Le mieux pour moi reste de faire ça à l'ancienne et supprimer toi-même du modèle la variable avec la p-valeur la plus haute, et de relancer la PROC LOGISTIC.

**fafabzh6** · 13/02/2014, 23h15

Comme l'a bien dit alers, il existe de très nombreuses méthodes de sélection de modèles.

Certaines sont automatiques et gérées par SAS et d'autres sont manuels et gérées moins facilement par SAS !

Tu dois aussi te poser la question de la finalité de ton modèle : description ou prédiction ; car dans ces deux cas les outils pour considérer qu'un modèle est optimal diffèrent.

**cococmoi** · 24/02/2014, 10h58

Merci pour vos réponses.

Pour apporter plus de détails à ma question, j'ai un modèle de description, c'est à dire je veux déterminer les facteurs les plus déterminants dans mon choix.

j'ai choisi également la méthode de sélection STEPWISE .

Ma question est de savoir si les résultats obtenus sont ceux du modèle optimal (je garde bien sur uniquement les variables dont le p_value<0.05), ou bien je dois faire une autre chose ?

**fafabzh6** · 24/02/2014, 14h13

Bonjour,
Une fois ton modèle optimal obtenu (par exemple par la méthode STEPWISE), tu l’interprètes ; c'est-à-dire que tu regardes l'influence des variables sélectionnées sur ta probabilité d'avoir l'évènement d'intérêt (Y=1).
Dans ce modèle final, certaines variables vont avoir une influence directe (p-value<0.5) sur l'évènement d'intérêt (Y=1) et d'autres pas (Y=0).

**cococmoi** · 24/02/2014, 14h39

donc si j'ai bien compris:

dans le dernier tableau que j'obtiens intitulé "estimation des rapports de cotes", je garde les variables dont l'IC ne contient pas "1" (qui correspondent à p_value<0.05 n'est ce pas ?)

et après les Odds ratios m'aident à déterminer l'ampleur de l'influence de mes variables explicatives sur la variable à expliquer.

**fafabzh6** · 24/02/2014, 14h45

En fait dans ton tableau final, tu gardes toutes tes variables et tu n’interprètes que celles qui sont significatives.

En effet si tu supprimes de ton tableau final les variables non significatives, le lecteur de ton tableau ne saura pas que tu a pris en compte ces variables dans ton analyse et supposera que ton modèle final est juste celui ou tu as tes variables significatives ; ce qui n'est pas le cas.

**cococmoi** · 24/02/2014, 15h21

ok, c'est compris

est ce que je peux savoir c'est quoi la relation entre p_value<0.05 et IC ne contenant pas "1" ?

**fafabzh6** · 24/02/2014, 15h27

Ca veut dire la même chose lorsque ton intervalle de confiance est au niveau 5%.

**cococmoi** · 24/02/2014, 15h29

je parle de l'IC des odds ratios

**fafabzh6** · 24/02/2014, 15h38

C'est la même chose car la fonction exponentielle est strictement croissante !

**cococmoi** · 24/02/2014, 15h42

Désolé, mais je n'ai toujours pas compris

**alers** · 24/02/2014, 16h40

Dans ta régression logistique, si tu observes un OR avec une p-valeur inférieure à 0,05, tu dois en toute logique avoir un IC (niveau de confiance 95%) associé qui ne contient pas la valeur 1,0.
Inversement, si ta p-valeur est supérieure ) 0,05, l'IC à 95% contiendra la valeur 1,0.

Attention je parle bien de la p-valeur d'un OR et pas de la p-valeur de ton modèle final (type 3 par exemple).

**cococmoi** · 24/02/2014, 17h08

mais d'où vient la valeur "1" ?

**suistrop** · 24/02/2014, 18h05

Bonjour,

Pour comprendre pourquoi la valeur 1, je te propose de regarder ce lien :
http://www.ats.ucla.edu/stat/mult_pk...odds_ratio.htm

Et plus particulierement ce passage :
From probability to odds to log of odds
Everything starts with the concept of probability. Let's say that the probability of success of some event is .8. Then the probability of failure is 1- .8 = .2. The odds of success are defined as the ratio of the probability of success over the probability of failure. In our example, the odds of success are .8/.2 = 4. That is to say that the odds of success are 4 to 1. If the probability of success is .5, i.e., 50-50 percent chance, then the odds of success is 1 to 1.

Cordialement,

**fafabzh6** · 24/02/2014, 20h42

Envoyé par cococmoi

mais d'où vient la valeur "1" ?

Bonjour,
En fait tu regardes si ton coefficient Beta à un effet, c'est-à-dire Beta est-il significativement différent de 0.
Par analogie avec un modèle de régression linéaire simple du type Y=aX+b,

X a un effet sur Y si a est strictement différent de 0
si X n'a pas d'effet sur Y alors a n'est pas strictement différent de 0 et le modèle peut alors s'écrire Y=b

Dans le cas du modèle logistique, les OR sont égaux à l'exponentielle des Beta, or exp(0)=1, cqfd.

**cococmoi** · 25/02/2014, 11h56

merci beaucoup pour vos réponses.

Modèle optimal en regression logistique

SAS STAT

Discussions similaires

Partager

Partager