Cette question est en quelque sorte générale et de longue haleine, mais veuillez me supporter.
Dans mon application, j'ai de nombreux jeux de données, chacun composé de ~ 20 000 points de données avec ~ 50 fonctionnalités et d'une seule variable binaire dépendante. J'essaie de modéliser les ensembles de données en utilisant une régression logistique régularisée (package R glmnet )
Dans le cadre de mon analyse, j'ai créé des graphiques résiduels comme suit. Pour chaque fonctionnalité, je trie les points de données en fonction de la valeur de cette fonctionnalité, divise les points de données en 100 compartiments, puis calcule la valeur de sortie moyenne et la valeur de prédiction moyenne dans chaque compartiment. Je trace ces différences.
Voici un exemple de tracé résiduel:
Dans le graphique ci-dessus, l'entité a une plage de [0,1] (avec une forte concentration à 1). Comme vous pouvez le voir, lorsque la valeur de la fonction est faible, le modèle semble être biaisé pour surestimer la probabilité d'une sortie 1. Par exemple, dans le compartiment le plus à gauche, le modèle surestime la probabilité d'environ 9%.
Armé de ces informations, je voudrais modifier la définition de la fonction d'une manière simple pour corriger à peu près ce biais. Des modifications comme le remplacement
ou
Comment puis-je faire ceci? Je recherche une méthodologie générale pour qu'un humain puisse rapidement parcourir les ~ 50 tracés et apporter des modifications, et cela pour tous les ensembles de données et répéter souvent pour garder les modèles à jour au fur et à mesure que les données évoluent.
En tant que question générale, est-ce même la bonne approche? Les recherches Google pour "analyse résiduelle de régression logistique" ne renvoient pas beaucoup de résultats avec de bons conseils pratiques. Ils semblent être obsédés par la réponse à la question: "Ce modèle est-il un bon ajustement?" et proposer divers tests comme Hosmer-Lemeshow pour répondre. Mais peu m'importe si mon modèle est bon, je veux savoir comment l'améliorer!