Bien que cette question et sa première réponse semblent se concentrer sur les questions théoriques de l'étalonnage du modèle de régression logistique, la question de:
Comment ruiner l'étalonnage d'une régression logistique ...?
mérite une certaine attention en ce qui concerne les applications du monde réel, pour les futurs lecteurs de cette page. Il ne faut pas oublier que le modèle de régression logistique doit être bien spécifié et que ce problème peut être particulièrement gênant pour la régression logistique.
Premièrement, si le log-odds d'appartenance à une classe n'est pas lié de façon linéaire aux prédicteurs inclus dans le modèle, il ne sera pas bien calibré. Le chapitre 10 de Harrell sur la régression logistique binaire consacre environ 20 pages à l '"évaluation de l'ajustement du modèle" afin que l'on puisse tirer parti de "l'impartialité asymptotique de l'estimateur du maximum de vraisemblance", comme le dit @whuber, dans la pratique.
Deuxièmement, la spécification du modèle est un problème particulier dans la régression logistique, car elle a un biais variable omis inhérent qui peut surprendre ceux qui ont des antécédents en régression linéaire ordinaire. Comme le dit cette page:
Les variables omises biaiseront les coefficients des variables incluses même si les variables omises ne sont pas corrélées avec les variables incluses.
Cette page contient également une explication utile des raisons pour lesquelles ce comportement est à prévoir, avec une explication théorique pour les modèles probit apparentés, exploitables analytiquement. Donc, à moins que vous ne sachiez que vous avez inclus tous les prédicteurs liés à l'appartenance à une classe, vous risquez de vous heurter à des erreurs de spécification et à un mauvais étalonnage dans la pratique.
En ce qui concerne la spécification du modèle, il est tout à fait possible que les méthodes basées sur des arbres comme la forêt aléatoire, qui n'assument pas de linéarité sur toute une gamme de valeurs de prédicteurs et offrent intrinsèquement la possibilité de trouver et d'inclure des interactions entre les prédicteurs, aboutiront à une meilleure- un modèle calibré en pratique qu'un modèle de régression logistique qui ne prend pas suffisamment en compte les termes d'interaction ou de non-linéarité. En ce qui concerne le biais de variable omise, il n'est pas clair pour moi si une méthode d'évaluation des probabilités d'appartenance à une classe peut traiter ce problème de manière adéquate.