Les réponses ci-dessus sont plus intuitives, alors j'essaie plus de rigueur.
Qu'est-ce qu'un GLM?
Soit représentent un ensemble d'une réponse et de dimension vecteur covariable avec la valeur attendue . Pour observations indépendantes, la distribution de chaque est une famille exponentielle de densité
Ici, le paramètre d'intérêt (paramètre naturel ou canonique) est , est un paramètre d'échelle (connu ou perçu comme une nuisance) et et sont fonctions connues. LeY=(y,x)ypx=(x1,…,xp)E(y)=μi=1,…,nyi
f(yi;θi,ϕ)=exp{[yiθi−γ(θi)]/ϕ+τ(yi,ϕ)}
θiϕγτnLes vecteurs tridimensionnels de valeurs d'entrée fixes pour les variables explicatives sont désignés par . Nous supposons que les vecteurs d'entrée influencent (1) uniquement via une fonction linéaire, le prédicteur linéaire,
dont dépend . Comme on peut montrer que , cette dépendance est établie en reliant le prédicteur linéaire et via la moyenne. Plus spécifiquement, la moyenne est vue comme une fonction inversible et lisse du prédicteur linéaire, c'est-à-dire
px1,…,xpηi=β0+β1xi1+⋯+βpxip
θiθ=(γ′)−1(μ)ηθμg(μ)=η or μ=g−1(η)
Maintenant pour répondre à votre question:
La fonction est appelée la fonction de liaison. Si la fonction connecte , et telle sorte que , ce lien est appelé canonique et a la forme .g(⋅)μηθη≡θg=(γ′)−1
C'est ça. Ensuite, il existe un certain nombre de propriétés statistiques souhaitables d'utilisation du lien canonique, par exemple, la statistique suffisante est avec les composantes pour , la méthode de Newton et les scores de Fisher pour En trouvant que l'estimateur ML coïncide, ces liens simplifient la dérivation de la MLE, ils assurent que certaines propriétés de la régression linéaire (par exemple, la somme des résidus est égale à 0) se maintiennent ou s'assurent que reste dans la plage de la variable de résultat .X′y∑ixijyij=1,…,pμ
Par conséquent, ils ont tendance à être utilisés par défaut. Notez cependant qu'il n'y a pas de raison a priori pour que les effets dans le modèle soient additifs sur l'échelle donnée par ce lien ou tout autre.