Pourquoi faisons-nous autant d'histoires sur l'utilisation de la notation Fisher lorsque nous adaptons un GLM?

16

Je suis curieux de savoir pourquoi nous traitons l'ajustement de GLMS comme s'il s'agissait d'un problème d'optimisation spécial. Sont-ils? Il me semble que ce ne sont que des probabilités maximales, et que nous écrivons la probabilité et ensuite ... nous la maximisons! Alors pourquoi utilisons-nous la notation de Fisher au lieu de la multitude de schémas d'optimisation qui ont été développés dans la littérature mathématique appliquée?

generalized-linear-model optimization fisher-scoring

— Andrew Robinson
source

13

Le score de Fisher n'est qu'une version de la méthode de Newton qui se trouve être identifiée avec les GLM, il n'y a rien de particulièrement spécial, à part le fait que la matrice d'informations de Fisher s'avère assez facile à trouver pour les variables aléatoires de la famille exponentielle. Il est également lié à de nombreux autres matériaux de statistiques mathématiques qui ont tendance à apparaître à peu près au même moment, et donne une belle intuition géométrique sur ce que signifie exactement l'information Fisher.

Il n'y a absolument aucune raison pour laquelle je peux penser à ne pas utiliser un autre optimiseur si vous préférez, sinon que vous pourriez avoir à le coder à la main plutôt que d'utiliser un package préexistant. Je soupçonne que toute forte insistance sur la notation de Fisher est une combinaison (par ordre décroissant de poids) de pédagogie, de facilité de dérivation, de biais historique et de syndrome «non inventé ici».

— Riches
source

1

Je ne pense pas que ce soit tout à fait correct - l'algorithme IRLS utilise la Hesse attendue, alors que Newton-Raphson utilise la Hesse observée - voir gen.lib.rus.ec/… pour une comparaison détaillée des 2 algorithmes ...

— Tom Wenseleers

9

C'est historique et pragmatique; GLM Nelder et Wedderburn à ingénierie inverse, comme l'ensemble de modèles où vous pouvez trouver le MLE en utilisant la notation de Fisher (c'est-à-dire les moindres carrés itérativement re-pondérés). L'algorithme a précédé les modèles, du moins dans le cas général.

Il convient également de se rappeler que les IWLS étaient ce qu'ils avaient au début des années 70, les GLM étaient donc une catégorie importante de modèles à connaître. Le fait que vous puissiez maximiser les probabilités GLM de manière fiable en utilisant des algorithmes de type Newton (ils ont généralement des MLE uniques) signifiait également que des programmes comme GLIM pouvaient être utilisés par ceux qui n'avaient pas de compétences en optimisation numérique.

— client
source

Je ne pense pas que ce soit tout à fait correct - l'algorithme IRLS utilise la Hesse attendue, alors que Newton-Raphson utilise la Hesse observée - voir gen.lib.rus.ec/… pour une comparaison détaillée des 2 algorithmes ...

— Tom Wenseleers