Réponses:
Je sais que cette question est assez naïve et simple, mais je ne sais pas exactement pourquoi la fonction canonique de lien est si utile
Est-ce vraiment si utile? Une fonction de lien étant canonique est principalement une propriété mathématique. Cela simplifie quelque peu les mathématiques, mais dans la modélisation, vous devez de toute façon utiliser la fonction de lien qui est scientifiquement significative.
Quelles sont donc les propriétés supplémentaires d'une fonction de lien canonique?
Elle conduit à l'existence de statistiques suffisantes. Cela pourrait impliquer une estimation un peu plus efficace, peut-être, mais les logiciels modernes (comme glm
dans R) ne semblent pas traiter les liens canoniques différemment des autres liens.
Il simplifie certaines formules, ce qui facilite les développements théoriques. Beaucoup de belles propriétés mathématiques, voir Quelle est la différence entre une "fonction de lien" et une "fonction de lien canonique" pour GLM .
Les avantages semblent donc être principalement mathématiques et algorithmiques, pas vraiment statistiques.
Quelques détails supplémentaires: Soit des observations indépendantes du modèle de famille de dispersion exponentielle
avec attente et prédicteur linéaire avec covariable vecteur . La fonction de lien est canonique si . Dans ce cas, la fonction de vraisemblance peut être écrite comme
et par le théorème de factorisation nous pouvons conclure que
Sans entrer dans les détails, les équations nécessaires pour IRLS seront simplifiées. De même, cette recherche google semble surtout trouver des liens canoniques mentionnés dans le cadre de simplifications, et non plus de raisons statistiques.
La fonction de lien canonique décrit la relation moyenne-variance dans un GLM. Par exemple, une variable aléatoire binomiale a une fonction de lien où est un prédicteur linéaire . Notez que qui est la relation moyenne-variance appropriée pour une variable aléatoire de Bernoulli. Il en va de même pour les variables aléatoires de Poisson, où la fonction de lien inverse est et où dans une variable aléatoire de Poisson, le la variance est la moyenne.
Le modèle linéaire généralisé résout une équation d'estimation de la forme:
où et . Lorsque le lien est canonique, par conséquent, et la fonction d'estimation est:
Comme cela a été noté dans l'article de Wedderburn de 1976 sur la quasi-probabilité, le lien canonique a l'avantage que les informations attendues et observées sont les mêmes et que les moindres carrés itérativement repondérés sont équivalents à Newton-Raphson, ce qui simplifie les procédures d'estimation et l'estimation de la variance.