Interprétation d'un tracé résiduel groupé en régression logistique

Je réalise une régression logistique avec variables indépendantes et observations. J'évalue l'ajustement du modèle afin de déterminer si les données répondent aux hypothèses du modèle et ont produit le tracé résiduel groupé suivant à l'aide du package: $24$ $123,996$ arm R

entrez la description de l'image ici

Évidemment, il y a de mauvais signes dans ce graphique: de nombreux points se situent en dehors des bandes de confiance et il y a un modèle distinctif pour les résidus. Ma question est - puis-je attacher ces questions à des hypothèses spécifiques du modèle de régression logistique? Par exemple, puis-je dire qu'il existe des preuves de non-linéarité dans les variables indépendantes ou d'hétéroscédasticité? Sinon, existe-t-il d'autres diagnostics que je peux produire pour aider à identifier où se situe le problème?

Sur la base de la réponse de Daniel, il semble que le principal problème est que j'utilisais des résidus sur l'échelle logit mais des valeurs attendues sur l'échelle de réponse. Si je reproduis l'intrigue avec les résidus également sur l'échelle de réponse, cela ressemble à ceci:

entrez la description de l'image ici

ce qui est beaucoup plus crédible.

regression logistic residuals

— M. Berk
source

Veuillez décrire la théorie statistique qui implique qu'un tel tracé résiduel est utile.

— Frank Harrell

@FrankHarrell Voir la discussion de la figure 17 dans Gelman et al (2000) "Vérifications diagnostiques pour les modèles de régression de données discrètes utilisant des simulations prédictives postérieures" - disponible ici: stat.columbia.edu/~gelman/research/published/dogs.pdf . Également à la page 97 d'Andrew Gelman et Jennifer Hill, Data Analysis Using Regression and Multilevel / Hierarchical Models, Cambridge University Press

— M. Berk

Pouvez-vous résumer ce que vous essayez exactement de faire avec de tels complots? Pour la régression logistique binaire, il n'y a pas d'hypothèse de distribution, et pour les hypothèses de régression, il est préférable d'ajuster le modèle de manière flexible (splines de régression, etc.) ou d'utiliser des graphiques résiduels partiels traditionnels.

— Frank Harrell

@FrankHarrell J'ai édité la question pour préciser que j'essaie d'évaluer si les données répondent aux hypothèses du modèle. Merci pour l'introduction aux parcelles résiduelles partielles, je pense que c'est exactement ce que je recherche.

— M. Berk

Soit j'interprète mal votre intrigue, soit il y a un problème. Le fait que vous ayez des résidus négatifs pour des valeurs attendues proches de 0 implique que votre modèle prédit une valeur négative. Cela ne devrait pas être possible pour les modèles de régression logistique qui ne prédisent que dans l'intervalle (0, 1), sauf si vous utilisez la sortie log-odds du modèle, auquel cas l'erreur résiduelle ne doit pas être définie. Comme la régression logistique est une méthode de classification, il est plus utile d'examiner d'abord la matrice de confusion. Vous devez également spécifier si le graphique est basé sur les données du train ou sur un ensemble de tests séparé.

— Daniel Mahler
source

Je pense que vous avez correctement identifié le problème. J'ai les résidus sur l'échelle logit et les valeurs ajustées sur l'échelle de réponse (c'est-à-dire entre 0 et 1). J'ai reproduit l'intrigue avec les résidus sur l'échelle de réponse et cela semble beaucoup plus crédible.

— M. Berk