Test d'adéquation en régression logistique; quel «ajustement» voulons-nous tester?

Je fais référence à la question et à ses réponses: comment comparer la capacité prédictive (probabilité) des modèles développés à partir de la régression logistique? par @Clark Chong et réponses / commentaires par @Frank Harrell. et à la question Degrés de liberté de dans le test de Hosmer-Lemeshow $\chi^2$ et les commentaires.

J'ai lu l'article DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, «A comparaison of goodness-of-fit tests for the Logistic regression model», Statistics in Medicine, Vol. 16, 965-980 (1997) .

Après avoir lu, j'étais confus parce que la question à laquelle je faisais référence demandait explicitement une "capacité prédictive (de probabilité)", ce qui, à mon avis, n'est pas le même que ce que les tests de qualité d'ajustement dans le document précité visent à:

Comme la plupart d'entre nous le savent, la régression logistique suppose un lien en forme de S entre les variables explicatives et la probabilité de succès, la forme fonctionnelle de la forme en S est

$P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}}$

Sans prétendre qu'il n'y a pas de lacunes dans le test de Hosmer-Lemeshow, je pense que nous devons faire la distinction entre les tests pour (a) «la capacité prédictive (probabilité) » et (b) la « qualité de l'ajustement ».

L'objectif du premier est de tester si les probabilités sont bien prédites, tandis que les tests de qualité d'ajustement testent si la fonction en S ci-dessus est la «bonne» fonction. Plus formellement:

les tests des «tests de capacité prédictive des probabilités» ont un indiquant que les probabilités de réussite sont bien prédites par le modèle; $H_0$
$H_0$

$H_0$

Première remarque

$H_0$

Première question

$H_0$

Deuxième question

En outre, je tiens à souligner les conclusions de Hosmer et. Al; (Je cite le résumé):

'' Un examen des performances des tests lorsque le modèle correct a un terme quadratique mais qu'un modèle contenant uniquement le terme linéaire a été ajusté montre que le chi carré Pearson, la somme des carrés non pondérée, le décile Hosmer-Lemeshow du risque, la somme des carrés résiduels lissés et le test de score de Stukel, ont une puissance supérieure à 50% pour détecter des écarts modérés de linéarité lorsque la taille de l'échantillon est de 100 et ont une puissance supérieure à 90% pour ces mêmes alternatives pour les échantillons de taille 500 Tous les tests n'avaient aucun pouvoir lorsque le modèle correct avait une interaction entre une covariable dichotomique et continue, mais seul le modèle de covariable continu était adapté. Le pouvoir de détecter une liaison incorrectement spécifiée était faible pour les échantillons de taille 100. Pour les échantillons de taille 500 Stukel ' Le test de score de s avait la meilleure puissance mais il ne dépassait que 50% pour détecter une fonction de liaison asymétrique. La puissance du test de somme des carrés non pondéré pour détecter une fonction de liaison incorrectement spécifiée était légèrement inférieure au test de score de Stukel ''

Puis-je en conclure quel test a plus de puissance ou que Hosmer – Lemeshow a moins de puissance (pour détecter ces anomalies spécifiques)?

Deuxième remarque

$H_1$ $H_1$

— Communauté
source

$R^2$

Les tests d'ajustement sont censés avoir une puissance raisonnable contre une variété d'alternatives, plutôt qu'une puissance élevée contre une alternative spécifique; de sorte que les gens qui comparent la puissance de différents tests ont tendance à adopter une approche pragmatique consistant à choisir quelques alternatives qui sont considérées comme présentant un intérêt particulier pour les utilisateurs potentiels (voir par exemple Stephens (1974), fréquemment cité , «Statistiques d'EDF pour la qualité de l'ajustement) & quelques comparaisons ", JASA, 69 , 347 ). Vous ne pouvez pas conclure qu'un test est plus puissant qu'un autre contre toutes les alternatives possibles car il est plus puissant contre certains.

— Scortchi - Réintégrer Monica
source

Dans certains cas, il peut être démontré qu'un test est «uniformément plus puissant», ce qui signifie qu'il est plus puissant pour toutes les alternatives possibles (cf. théorème de Karlin / Rubin). Mais vous avez raison, ce n'est que dans des cas exceptionnels et certainement pas dans le cadre du test Hosmer-Lemeshow.

En général, la «qualité de l'ajustement» est trop mise en évidence à mon humble avis. Une meilleure alternative consiste à adapter le modèle à l'avant. Cela se fait en utilisant des splines de régression pour assouplir les hypothèses de linéarité et en incluant des interactions qui auraient du sens.

— Frank Harrell

@fcoppens: Bon point! Vous n'obtenez des tests UMP qu'en restreignant sévèrement les alternatives considérées aux valeurs d'un paramètre scalaire, et même pas toujours. Même en considérant si un test est inadmissible - il y a au moins un autre test qui a plus de pouvoir dans toutes les alternatives -, il faudrait trop restreindre les alternatives pour un test GOF à usage général.

— Scortchi - Réintégrer Monica