Que signifient les résidus d'une régression logistique?

En réponse à cette question, John Christie a suggéré d'évaluer l'adéquation des modèles de régression logistique en évaluant les résidus. Je sais comment interpréter les résidus dans les MCO, ils sont à la même échelle que le DV et très clairement la différence entre y et le y prévue par le modèle. Cependant, pour la régression logistique, dans le passé, je venais généralement d’examiner les estimations de l’ajustement du modèle, par exemple AIC, car je ne savais pas ce que signifierait un résidu pour une régression logistique. Après avoir examiné l'aide de R fichiers un peu , je vois que dans R il existe cinq types de résidus de GLM disponibles, c("deviance", "pearson", "working","response", "partial"). Le fichier d'aide fait référence à:

Davison, AC et Snell, EJ (1991) Résidus et diagnostics. Dans: Théorie statistique et modélisation. En l'honneur de Sir David Cox, FRS , eds. Hinkley, DV, Reid, N. et Snell, EJ, Chapman & Hall.

Je n'en ai pas de copie. Existe-t-il un moyen simple de décrire comment interpréter chacun de ces types? Dans un contexte logistique, la somme des résidus au carré fournira-t-elle une mesure significative de l'ajustement du modèle ou est-il préférable de disposer d'un critère d'information?

— russellpierce
source

Il reste des éléments de cette question qui restent sans réponse, par exemple la nature des résidus "pearson", "travail", "réponse" et "partielle", mais pour le moment j'accepterai la réponse de Thylacoleo.

— russellpierce

Je trouve que la binnedplotfonction dans le bras de package R donne un graphique très utile des résidus. Il est bien décrit aux pages 97-101 de Gelman and Hill 2007 .

— conjugateprior

Un moyen très facile de vérifier l'ajustement du modèle est un graphique des proportions observées par rapport aux prévisions. Mais cela ne fonctionnera pas si vous avez une régression de bernoulli (toutes vos observations ont des combinaisons uniques de variables indépendantes, de sorte que

), car vous verrez seulement une ligne de zéros et de uns.

n_{i} = 1

$n_i=1$

— probabilitéislogique

Oui, malheureusement, j'utilise habituellement un Bernoulli DV.

— russellpierce

Voir aussi Comprendre les résidus et résidus de glm $ sur le dépassement de pile .

— Gay - Rétablir Monica

Réponses:

$p = \text{logit}^{-1}(X\beta)$ $X$

$\text{logit}^{-1}(X\beta)$

Faire une régression logistique revient à trouver une valeur bêta telle que la somme des résidus de déviance au carré soit minimisée.

Cela peut être illustré avec un complot, mais je ne sais pas comment en télécharger un.

— Thylacoleo
source

Reg images: utilisez l'un des sites d'hébergement d'images gratuits (recherchez sur Google), téléchargez l'intrigue sur ce site et associez-le ici.

J'ai corrigé une erreur dans ma réponse initiale. J'ai d'abord écrit p = logit (X beta). En fait, la probabilité prédite est le logit inverse de la combinaison linéaire, p = inv-logit (X beta). En R, ceci est calculé comme p <-plogit (X beta), qui est p = exp (X beta) / (1 + exp (X * beta)).

— Thylacoleo

De quel paquet R plogitprovient-il? Il n'était pas clair si vous le définissiez ici ou l'obteniez ailleurs.

— Amyunimus

@Amyunimus plogitest dans R (stats), aucun package requis (du moins plus maintenant)

— russellpierce

Sur les résidus de poires,

Le résidu de Pearson est la différence entre les probabilités observée et estimée divisée par l'écart-type binomial de la probabilité estimée. Par conséquent, normaliser les résidus. Pour les grands échantillons, les résidus standardisés doivent avoir une distribution normale.

De Ménard, Scott (2002). Analyse de régression logistique appliquée, 2e édition. Thousand Oaks, CA: Sage Publications. Série: Applications quantitatives en sciences sociales, n ° 106. Première édition, 1995. Voir le chapitre 4.4.

— tosonb1
source

n_{i}

$n_i$

n_{i} < 5

$n_i<5$

Les résidus de travail sont les résidus de l'itération finale de toute méthode des moindres carrés pondérée de manière itérative . Je pense que cela signifie les résidus lorsque nous pensons que c'est la dernière itération de notre exécution de modèle. Cela peut donner lieu à discussion que le fonctionnement du modèle est un exercice itératif.

— ayush biyani
source