Le modèle de régression logistique est le maximum de vraisemblance utilisant le paramètre naturel (le log-odds ratio) pour contraster les changements relatifs du risque de différence de résultat par unité dans le prédicteur. Cela suppose, bien sûr, un modèle de probabilité binomiale pour le résultat. Cela signifie que les propriétés de cohérence et de robustesse de la régression logistique s'étendent directement du maximum de vraisemblance: robustesse à absence de données aléatoires, cohérence racine-n, et existence et unicité des solutions d'estimation des équations. Cela suppose que les solutions ne se trouvent pas aux limites de l'espace des paramètres (où les rapports de cotes logarithmiques sont ). La régression logistique étant le maximum de vraisemblance, la fonction de perte est liée à la vraisemblance, car ce sont des problèmes d'optimisation équivalents.±∞
Avec la quasi-vraisemblance ou les équations d'estimation (inférence semi-paramétrique), l'existence, les propriétés d'unicité sont toujours valables mais l'hypothèse selon laquelle le modèle moyen est valable n'est pas pertinente et l'inférence et les erreurs standard sont cohérentes indépendamment des erreurs de spécification du modèle. Donc, dans ce cas, il ne s'agit pas de savoir si le sigmoïde est la fonction correcte, mais celle qui nous donne une tendance en laquelle nous pouvons croire et qui est paramétrée par des paramètres qui ont une interprétation extensible.
Le sigmoïde, cependant, n'est pas la seule fonction de modélisation binaire de ce type. La fonction probit la plus souvent contrastée a des propriétés similaires. Il n'évalue pas les log-odds ratios, mais fonctionnellement, ils semblent très similaires et ont tendance à donner des approximations très similaires à la même chose . Il n'est pas nécessaire non plus d'utiliser des propriétés de limite dans la fonction de modèle moyen. La simple utilisation d'une courbe logarithmique avec une fonction de variance binomiale donne une régression du risque relatif, un lien d'identité avec la variance binomiale donne des modèles de risque additifs. Tout cela est déterminé par l'utilisateur. La popularité de la régression logistique est, malheureusement, pourquoi elle est si couramment utilisée. Cependant, j'ai mes raisons (celles que j'ai énoncées) pourquoi je pense que c'est bien justifié pour son utilisation dans la plupart des circonstances de modélisation de résultats binaires.
Dans le monde de l'inférence, pour les résultats rares, le rapport de cotes peut être interprété grossièrement comme un «risque relatif», c'est-à-dire un «changement relatif en pourcentage du risque de résultat comparant X + 1 à X». Ce n'est pas toujours le cas et, en général, un rapport de cotes ne peut et ne doit pas être interprété comme tel. Cependant, le fait que les paramètres aient une interprétation et puissent être facilement communiqués à d'autres chercheurs est un point important, quelque chose qui manque tristement au matériel didactique des machine learning.
Le modèle de régression logistique fournit également les fondements conceptuels d'approches plus sophistiquées telles que la modélisation hiérarchique, ainsi que la modélisation mixte et les approches de vraisemblance conditionnelle qui sont cohérentes et robustes à un nombre exponentiellement croissant de paramètres de nuisance. Les GLMM et la régression logistique conditionnelle sont des concepts très importants dans les statistiques de haute dimension.