Un modèle linéaire standard (par exemple, un modèle de régression simple) peut être considéré comme comportant deux «parties». Celles-ci sont appelées composant structurel et composant aléatoire . Par exemple:
Les deux premiers termes (c'est-à-dire, β 0 + β 1 X ) constituent le composant structural et le ε (qui indique un terme d'erreur normalement distribué) est le composant aléatoire. Lorsque la variable de réponse n'est pas distribuée normalement (par exemple, si votre variable de réponse est binaire), cette approche peut ne plus être valide. Lemodèle linéaire généralisé
Y=β0+β1X+εwhere ε∼N(0,σ2)
β0+β1Xε(GLiM) a été développé pour traiter de tels cas, et les modèles logit et probit sont des cas spéciaux de GLiM appropriés pour les variables binaires (ou les variables de réponse à plusieurs catégories avec certaines adaptations du processus). Un GLiM comprend trois parties, un
composant structurel , une
fonction de liaison et une
distribution de réponse . Par exemple:
Ici
β 0 + β 1 X est à nouveau le composant structurel,
g ( ) est la fonction de liaison et
μg(μ)=β0+β1X
β0+β1Xg()μest une moyenne d'une distribution de réponse conditionnelle en un point donné de la covariable. La façon dont nous pensons ici à la composante structurelle ne diffère pas vraiment de celle que nous avons avec les modèles linéaires standard; En fait, c'est l'un des grands avantages des GLiM. Parce que pour de nombreuses distributions, la variance est fonction de la moyenne, après avoir ajusté une moyenne conditionnelle (et dans la mesure où vous avez stipulé une distribution de réponse), vous avez automatiquement rendu compte de l'analogue de la composante aléatoire dans un modèle linéaire (NB: cela peut être plus compliqué en pratique).
La fonction de liaison est la clé des GLiM: puisque la distribution de la variable de réponse est non normale, c’est ce qui nous permet de connecter le composant structurel à la réponse - il les «relie» (d'où le nom). C'est également la clé de votre question, car logit et probit sont des liens (comme l'explique @vinux), et la compréhension des fonctions de lien nous permettra de choisir intelligemment quand utiliser lequel. Bien que de nombreuses fonctions de liaison puissent être acceptables, il en existe souvent une qui soit spéciale. Sans vouloir entrer trop loin dans les mauvaises herbes (cela peut être très technique), la moyenne prédite, , ne sera pas nécessairement la même chose que le paramètre de localisation canonique de la distribution de réponse ; la fonction de lien qui les assimile est la fonction de lien canoniqueμ. L'avantage de ceci "est qu'il existe une statistique minimale suffisante pour " ( German Rodriguez ). Le lien canonique pour les données de réponse binaires (plus précisément, la distribution binomiale) est le logit. Cependant, de nombreuses fonctions peuvent mapper le composant structurel sur l'intervalle ( 0 , 1 ) et ainsi être acceptables. le probit est également populaire, mais d’autres options sont parfois utilisées (comme le journal complémentaire, ln ( - ln ( 1 - μ ) )β(0,1)ln(−ln(1−μ)), souvent appelé 'cloglog'). Ainsi, il existe de nombreuses fonctions de liaison possibles et le choix de la fonction de liaison peut être très important. Le choix devrait être fait sur la base d'une combinaison de:
- Connaissance de la distribution des réponses,
- Considérations théoriques, et
- Ajustement empirique aux données.
Après avoir couvert un peu de fond conceptuel nécessaire pour comprendre ces idées plus clairement (pardonnez-moi), je vais expliquer comment ces considérations peuvent être utilisées pour guider votre choix de lien. (Permettez-moi de noter que, selon moi, le commentaire de @ David rend bien compte de la raison pour laquelle différents liens sont choisis en pratique .) Pour commencer, si votre variable de réponse est le résultat d'un essai de Bernoulli (c'est-à-dire ou 1 ), votre distribution de réponse binomial, et ce que vous modélisez est la probabilité qu'une observation soit un 1 (c'est-à-dire, π ( Y = 1 ) ). Par conséquent, toute fonction mappant la droite numérique réelle (011π(Y=1) , à l'intervalle ( 0 , 1 ) fonctionnera. (−∞,+∞)(0,1)
Du point de vue de votre théorie de fond, si vous pensez que vos covariables sont directement liées à la probabilité de succès, vous choisirez généralement une régression logistique car il s'agit du lien canonique. Cependant, considérons l'exemple suivant: Il vous est demandé de modéliser high_Blood_Pressure
en fonction de certaines covariables. La tension artérielle elle-même est normalement distribuée dans la population (je ne le sais pas vraiment, mais cela semble raisonnable à première vue), néanmoins, les cliniciens l'ont dichotomisée au cours de l'étude (c'est-à-dire qu'ils n'ont enregistré que «l'hypertension artérielle» ou «normale»). ). Dans ce cas, le probit serait préférable a priori pour des raisons théoriques. C'est ce que @Elvis entendait par "votre résultat binaire dépend d'une variable gaussienne cachée".symétrique , si vous croyez que la probabilité de réussite augmente lentement à partir de zéro, mais diminue ensuite plus rapidement à l'approche de l'un, le cloglog est appelé, etc.
Enfin, notez que l'ajustement empirique du modèle aux données ne sera probablement d'aucune aide pour la sélection d'un lien, à moins que la forme des fonctions de lien en question diffère considérablement (les fonctions logit et probit ne diffèrent pas non plus). Par exemple, considérons la simulation suivante:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
Même si nous savons que les données ont été générées par un modèle probit, et que nous disposons de 1 000 points de données, le modèle probit ne donne un meilleur ajustement que 70% du temps, et même dans de très rares cas. Considérons la dernière itération:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
La raison en est simplement que les fonctions de liaison logit et probit génèrent des sorties très similaires lorsque les mêmes entrées sont données.
Les fonctions logit et probit sont pratiquement identiques, à la différence que le logit est légèrement plus éloigné des limites quand ils «tournent le coin», comme @vinux l'a déclaré. (Notez que pour obtenir le logit et probit pour aligner de façon optimale, le logit doit être ≈ 1,7 fois la valeur de pente correspondante pour la probit. De plus, je aurais pu déplacé le cloglog sur un peu afin qu'ils déposeraient au - dessus de plus, mais je me suis laissé de côté pour que la silhouette soit plus lisible.) Notez que le cloglog est asymétrique alors que les autres ne le sont pas; il commence à s'écarter de 0 plus tôt, mais plus lentement, et s'approche de 1, puis tourne brusquement. β1≈1.7
Quelques autres choses peuvent être dites sur les fonctions de liaison. Premièrement, considérer la fonction d'identité ( ) comme une fonction de lien nous permet de comprendre le modèle linéaire standard comme un cas particulier du modèle linéaire généralisé (en d'autres termes, la distribution de la réponse est normale et le lien est le fonction d'identité). Il est également important de reconnaître que quelle que soit la transformation que le lien instancie est correctement appliquée au paramètre régissant la distribution de la réponse (c'est-à-dire, µ ), et non aux données de réponse réelles .g(η)=ημ. Enfin, parce que dans la pratique, nous n’avons jamais le paramètre sous-jacent à transformer, dans les discussions sur ces modèles, ce qui est considéré comme étant le lien réel reste implicite et le modèle est représenté par l’ inverse de la fonction de lien appliquée au composant structurel. . Soit:
Par exemple, la régression logistique est généralement représentée:
π ( Y ) = exp ( β 0 + β 1 X ).
μ=g−1(β0+β1X)
au lieu de:
ln(π(Y)π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ln(π(Y)1−π(Y))=β0+β1X
Pour un aperçu rapide et clair, mais solide, du modèle linéaire généralisé, voir le chapitre 10 de Fitzmaurice, Laird, & Ware (2004) (sur lequel je me suis penché pour une partie de cette réponse, bien que ceci soit ma propre adaptation de celui-ci. --et autre - matériel, toute erreur serait la mienne). Pour savoir comment adapter ces modèles dans R, consultez la documentation de la fonction ? Glm dans le package de base.
X1β1exp(β1)β1 zzz
(+1 à @vinux et @Elvis. Ici, j’ai essayé de fournir un cadre plus large pour réfléchir à ces questions, puis de l’utiliser pour aborder le choix entre logit et probit.)