Quelles sont les raisons pour lesquelles les moindres carrés itérativement repondérés ne convergeraient pas lorsqu'ils sont utilisés pour la régression logistique?

8

J'ai utilisé la fonction glm.fit dans R pour ajuster les paramètres à un modèle de régression logistique. Par défaut, glm.fit utilise des moindres carrés itérativement repondérés pour ajuster les paramètres. Quelles sont les raisons pour lesquelles cet algorithme ne parviendrait pas à converger, lorsqu'il est utilisé pour la régression logistique?

— Jessica
source

2

Je ne sais pas comment juger "la plus courante", car ce qui est commun aux personnes travaillant dans un domaine peut être rare dans un autre. [Une des raisons (parmi tant d'autres) pourrait être la séparation complète - où, le long d'une combinaison linéaire de prédicteurs, tous les 0 sont au-dessus ou en dessous de tous les 1. Vous pouvez parfois voir quand cela se produit car au moins un paramètre aura tendance à se diriger vers l'infini.]

— Glen_b -Reinstate Monica

@Glen_b: Merci pour votre commentaire, je vais le remplacer par "quelques raisons".

— Jessica

14

Dans le cas où les deux classes sont séparables, les moindres carrés itérativement repondérés (IRLS) se briseraient. Dans un tel scénario, tout hyperplan qui sépare les deux classes est une solution et il y en a une infinité. IRLS est destiné à trouver une solution de maximum de vraisemblance. La probabilité maximale n'a pas de mécanisme pour favoriser l'une de ces solutions par rapport à l'autre (par exemple pas de concept de marge maximale). Selon l'initialisation, IRLS devrait aller vers l'une de ces solutions et se briserait en raison de problèmes numériques (je ne connais pas les détails de IRLS; une supposition éclairée).

Un autre problème se pose en cas de séparabilité linéaire des données d'apprentissage. L'une des solutions hyperplan correspond à une fonction heaviside. Par conséquent, toutes les probabilités sont soit 0 soit 1. La solution de régression linéaire serait un classificateur dur plutôt qu'un classificateur probabiliste.

Pour clarifier l'utilisation de symboles mathématiques, la fonction heaviside est , la limite de la fonction sigmoïde, où est la fonction sigmoïde et détermine la solution d'hyperplan. Donc, IRLS ne s'arrête pas théoriquement et va vers un avec une amplitude croissante mais se briserait en pratique en raison de problèmes numériques. $\lim_{|\mathbf{w}| \rightarrow \infty}\sigma(\mathbf{w}^T x + b)$ $\sigma$ $(\mathbf{w}, b)$ $\mathbf{w}$

— Seeda
source

7

En plus de la séparation linéaire (dans laquelle le MLE est à la limite de l'espace des paramètres), la procédure de notation de Fisher dans R n'est pas complètement stable numériquement. Elle prend des pas de taille fixe, ce qui dans certains cas pathologiques peut conduire à une non-convergence (lorsque le véritable MLE est bien un point intérieur).

Par exemple,

y <- c(1,1,1,0)
x <- rep(1,4)
fit1 <- glm.fit(x,y, family=binomial(link="logit"),start=-1.81)

donne un coefficient de plutôt que le logit attendu . $2 \times 10^{15}$ $(3/4) \approx 1.0986$

Le package CRAN glm2 fournit un remplacement directglm.fit qui ajuste la taille des pas pour assurer la convergence monotone.

— Andrew M
source