Quand la régression logistique est-elle résolue sous forme fermée?


31

Prenons et et supposons que nous modélisons la tâche de prédire y étant donné x en utilisant la régression logistique. Quand les coefficients de régression logistique peuvent-ils être écrits sous forme fermée? y { 0 , 1 }x{0,1}dy{0,1}

Un exemple est lorsque nous utilisons un modèle saturé.

Autrement dit, définissez , où indexe les ensembles dans le jeu de puissance de et renvoie 1 si toutes les variables du ème ensemble sont 1, sinon 0. Ensuite, vous pouvez exprimer chaque dans ce modèle de régression logistique comme un logarithme d'une fonction rationnelle des statistiques des données.i { x 1 , , x d } f i i w iP(y|x)exp(iwifi(xi))i{x1,,xd}fiiwi

Y a-t-il d'autres exemples intéressants lorsqu'il existe un formulaire fermé?


4
Je suppose que vous voulez dire "quand les MLE des paramètres sont-ils fermés?"
Glen_b -Reinstate Monica

Pouvez-vous donner plus de détails sur ce que vous avez fait? Votre question se lit comme si vous tentiez de dériver l'estimateur des moindres carrés ordinaires pour un problème de régression logistique?
Momo

1
Merci pour l'intéressant message / question, Yaroslav. Avez-vous une référence pour l'exemple que vous montrez?
Bitwise

1
Cela fait un moment, mais c'était peut-être dans le livre "Modèles graphiques" de Lauritzen. Les fondements plus larges de la réponse à cette question sont là - vous obtenez une solution de forme fermée lorsque le (hyper) graphique formé par des statistiques suffisantes est en accord
Yaroslav Bulatov

Cela pourrait être intéressant tandfonline.com/doi/abs/10.1080/… Je pense que c'est un cas particulier d'une solution analytique lorsque vous n'avez qu'une table 2x2
Austin

Réponses:


33

Comme l'a souligné kjetil b halvorsen, c'est, à sa manière, un miracle que la régression linéaire admette une solution analytique. Et cela ne l'est que grâce à la linéarité du problème (par rapport aux paramètres). Dans OLS, vous avez qui a les conditions de premier ordre pour un problème avec variables (y compris constante, si nécessaire - il y a aussi une régression à travers les problèmes d'origine), c'est un système avec équations et inconnues. Plus important encore, c'est un système linéaire, vous pouvez donc trouver une solution en utilisant la théorie et la pratique de l'algèbre linéaire standard

i(yixiβ)2minβ,
2i(yixiβ)xi=0
ppp. Ce système aura une solution de probabilité 1 sauf si vous avez des variables parfaitement colinéaires.

Maintenant, avec la régression logistique, les choses ne sont plus aussi faciles. Notez la fonction log-vraisemblance, et en prenant sa dérivée pour trouver le MLE, nous obtenons Les paramètres entrent ceci de manière très non linéaire: pour chaque , il y a une fonction non linéaire, et ils sont additionnés. Il n'y a pas de solution analytique (sauf probablement dans une situation triviale avec deux observations, ou quelque chose comme ça), et vous devez utiliser

l(y;x,β)=iyilnpi+(1yi)ln(1pi),pi=(1+exp(θi))1,θi=xiβ,
lβ=idpidθ(yipi1yi1pi)xi=i[yi11+exp(xiβ)]xi
βiméthodes d'optimisation non linéaire pour trouver les estimations .β^

Un examen un peu plus approfondi du problème (en prenant la dérivée seconde) révèle qu'il s'agit d'un problème d'optimisation convexe de la recherche d'un maximum d'une fonction concave (une parabole multivariée glorifiée), donc l'une ou l'autre existe, et tout algorithme raisonnable devrait la trouver plutôt rapidement, ou les choses explosent à l'infini. Ce dernier arrive à la régression logistique lorsque pour certains , c'est-à-dire que vous avez une prédiction parfaite. C'est un artefact plutôt désagréable: on pourrait penser que lorsque vous avez une prédiction parfaite, le modèle fonctionne parfaitement, mais curieusement, c'est l'inverse.Prob[Yi=1|xiβ>c]=1c


la question est de savoir pourquoi votre dernière équation n'est pas résoluble. est-ce dû à l'inverse de la fonction logistique divergente à 0 et 1, ou est-ce dû à la non-linéarité en général?
eyaler

5
(1) En ce qui concerne votre dernier paragraphe: Du point de vue mathématique , il fait le travail « parfaitement » dans le sens où un MLE donnera un hyperplan de séparation parfaite. La question de savoir si votre algorithme numérique se comporte raisonnablement dans ces circonstances est une question distincte. Le lissage de Laplace est souvent utilisé dans de telles situations.
Cardinal

@eyaler, je dirais que cela est dû à la non-linéarité en général. Je crois comprendre qu'il existe un ensemble limité de circonstances où cela peut être résolu, bien que je ne sache pas quelles sont ces circonstances.
StasK

1
Je ne comprends pas, quelle condition mathématique est présente qui fait que le système n'a pas de solution sous forme fermée? Existe-t-il une condition générale selon laquelle les choses n'ont généralement pas de solutions sous forme fermée?
Charlie Parker

est-ce que le fait que la régression logistique n'a pas de forme fermée est quelque chose que l'on peut prouver en regardant l'itération de descente de gradient pour cela?
Charlie Parker

8

Ce message était à l'origine destiné à être un long commentaire plutôt qu'une réponse complète à la question posée.

De la question, il est un peu difficile de savoir si l'intérêt réside uniquement dans le cas binaire ou, peut-être, dans des cas plus généraux où ils peuvent être continus ou prendre d'autres valeurs discrètes.

Un exemple qui ne répond pas tout à fait à la question, mais qui est lié et que j'aime, concerne les classements de préférence d'objet obtenus via des comparaisons par paires. Le modèle Bradley-Terry peut être exprimé comme une régression logistique où et est une "affinité", une "popularité", ou paramètre "force" de l'élément avec indiquant que l'élément était préféré à l'élément dans une comparaison par paires.α i i Y i j = 1 i j

logit(Pr(Yij=1))=αiαj,
αiiYij=1ij

Si un tour complet de comparaisons est effectué (c'est-à-dire qu'une préférence par paire est enregistrée pour chaque paire non ordonnée ), il s'avère que l'ordre de classement des MLE correspond à la ordre de de , la somme totale des fois où chaque objet a été préféré à un autre.α i S i = Σ j i Y i j(i,j)α^iSi=jiYij

Pour interpréter cela, imaginez un tournoi à la ronde complet dans votre sport de compétition préféré. Ensuite, ce résultat indique que le modèle Bradley-Terry classe les joueurs / équipes selon leur pourcentage de victoires. Que ce soit un résultat encourageant ou décevant dépend de votre point de vue, je suppose.

NB Ce résultat de classement ne tient pas, en général, quand un tournoi à la ronde complet n'est pas joué.


2
Je m'intéressais au binaire car il était plus facile à analyser. J'ai trouvé une condition suffisante très large dans les œuvres de Lauritzen - vous obtenez une forme fermée si un modèle log-linéaire correspondant est décomposable
Yaroslav Bulatov
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.