Estimation des paramètres avec des modèles linéaires généralisés

9

Par défaut, lorsque nous utilisons une glmfonction dans R, elle utilise la méthode des moindres carrés itérativement repondérés (IWLS) pour trouver l'estimation du maximum de vraisemblance des paramètres. Maintenant, j'ai deux questions.

Les estimations IWLS garantissent-elles le maximum global de la fonction de vraisemblance? D'après la dernière diapositive de cette présentation, je pense que non! Je voulais juste m'en assurer.
Pouvons-nous dire que la raison de la question 1 ci-dessus est due au fait que presque toutes les méthodes d'optimisation numérique peuvent être bloquées à un maximum local plutôt qu'à un maximum global?

— Stat
source

6

Lorsque vous essayez d'estimer des paramètres, vous souhaitez toujours qu'il existe une solution de formulaire fermé. Cependant, il n'en existe pas toujours (je suppose qu'il est possible que dans certains cas il y en ait un mais il est inconnu à l'heure actuelle). Lorsqu'une solution sous forme fermée n'existe pas, une stratégie heuristique doit être utilisée pour rechercher dans l'espace des paramètres les meilleures estimations de paramètres possibles à utiliser. Il y a beaucoup de stratégies de recherche (par exemple dans R, ? Optim listes 6 méthodes d'usage général). L'IRWLS est une version simplifiée de l' algorithme de Newton-Raphson .

Malheureusement, la réponse à votre [ 1 ] est qu'aucune stratégie de recherche heuristique n'est garantie pour trouver le minimum global (maximum). Il y a trois raisons pour lesquelles c'est le cas:

Comme indiqué sur la diapositive 9 de votre présentation liée, aucune solution unique ne peut exister. Des exemples de ceci peuvent être la multicolinéarité parfaite , ou lorsqu'il y a plus de paramètres à estimer qu'il n'y a de données .
Comme indiqué sur la diapositive 10 (cette présentation est assez bonne, je pense), la solution peut être infinie. Cela peut se produire dans la régression logistique, par exemple, lorsque vous avez une séparation parfaite .
Il peut aussi arriver qu'il existe un minimum global fini (maximum), mais que l'algorithme ne le trouve pas. Ces algorithmes (en particulier IRWLS et NR) ont tendance à partir d'un emplacement spécifié et à «regarder autour» pour voir si se déplacer dans une certaine direction constitue une «descente» (c'est-à-dire améliorer l'ajustement). Si c'est le cas, il se réadaptera à une certaine distance dans cette direction et répétera jusqu'à ce que l'amélioration supposée / prédite soit inférieure à un certain seuil. Ainsi, il peut y avoir deux façons de ne pas atteindre le minimum mondial:
1. Le taux de descente de l'emplacement actuel vers le minimum global (maximum) est trop faible pour franchir le seuil et l'algorithme s'arrête avant la solution.
2. Il existe un minimum local (maximum) entre l'emplacement actuel et le minimum global (maximum), de sorte qu'il apparaît à l'algorithme qu'un mouvement ultérieur entraînerait un ajustement pire .

En ce qui concerne votre [ 2 ], sachez que les différentes stratégies de recherche ont des tendances différentes à être prises dans les minima locaux. Même la même stratégie peut parfois être adaptée ou commencée à partir d'un point de départ différent pour résoudre les deux derniers problèmes.

— gung - Réintégrer Monica
source

Merci gung. Encore une question, comment pouvons-nous sélectionner un bon point de départ lors de l'optimisation?

— Stat

Je ne sais pas qu'il existe nécessairement une meilleure façon. Parfois, vous devez essayer quelques points de départ différents, s'il ne parvient pas à converger ou si vous n'êtes pas sûr d'être dans le minimum global. Je pense qu'une façon courante pour les programmes de choisir un point de départ est d'utiliser les estimations de l'OLS, même si elles ne sont pas appropriées et vous savez que vous devrez déménager à partir de là.

— gung - Rétablir Monica

6

Vous avez raison de dire qu'en général, IWLS, comme les autres méthodes d'optimisation numérique, ne peut garantir la convergence à un maximum local que si elles convergent. Voici un bel exemple où la valeur de départ était en dehors du domaine de convergence pour l'algorithme utilisé par glm () dans R. Cependant, il convient de noter que pour les GLM avec le lien canonique, la probabilité est concave, voir ici . Ainsi, si l'algorithme converge, il aura convergé vers le mode global!

Le dernier problème signalé dans la diapositive est un problème où le MLE d'un paramètre est à l'infini. Cela peut se produire dans la régression logistique où il existe une séparation complète. Dans un tel cas, vous obtiendrez un message d'avertissement indiquant que les probabilités ajustées sont numériquement 0 ou 1. Il est important de noter que lorsque cela se produit, l'algorithme n'a pas convergé vers le mode, donc cela n'a pas à voir avec l'algorithme étant coincé dans un maximum local.

— jsk
source