Serait-ce aller trop loin pour dire qu'elle valide mon choix de distribution?
Cela dépend en quelque sorte de ce que vous entendez par «valider» exactement, mais je dirais «oui, cela va trop loin» de la même manière que vous ne pouvez pas vraiment dire «le null est vrai», (en particulier avec des points nuls, mais dans au moins un certain sens plus généralement). Vous ne pouvez vraiment dire que "eh bien, nous n'avons pas de preuves solides que c'est faux". Mais en tout cas, nous ne nous attendons pas à ce que nos modèles soient parfaits, ce sont des modèles . Ce qui importe, comme l'a dit Box & Draper, c'est "à quel point doivent-ils se tromper pour ne pas être utiles? "
L'une ou l'autre de ces deux phrases antérieures:
Cela semble suggérer (pour moi) que le choix d'une distribution gaussienne était tout à fait raisonnable. Ou, au moins, que les résidus sont cohérents avec la distribution que j'ai utilisée dans mon modèle.
Décrivez beaucoup plus précisément ce que vos diagnostics indiquent - non pas qu'un modèle gaussien avec lien de connexion était correct - mais qu'il était raisonnable ou cohérent avec les données.
J'ai choisi une fonction de lien de journal parce que ma variable de réponse est toujours positive, mais j'aimerais une sorte de confirmation que c'était un bon choix.
Si vous savez qu'il doit être positif, sa moyenne doit être positive. Il est judicieux de choisir un modèle qui soit au moins cohérent avec cela. Je ne sais pas si c'est un bon choix (il pourrait bien y avoir de bien meilleurs choix), mais c'est une chose raisonnable à faire; ça pourrait bien être mon point de départ. [Cependant, si la variable elle-même est nécessairement positive, ma première pensée tendrait à être Gamma avec log-link, plutôt que Gaussienne. "Nécessairement positif" suggère à la fois une asymétrie et une variance qui changent avec la moyenne.]
Q2: Existe-t-il des tests, comme la vérification des résidus pour le choix de la distribution, qui peuvent prendre en charge mon choix de fonction de lien?
Il semble que vous ne vouliez pas dire «test» comme dans «test d'hypothèse formel» mais plutôt comme «vérification diagnostique».
Dans les deux cas, la réponse est oui.
Un test d'hypothèse formel est le test de qualité de liaison de Pregibon [1].
Ceci est basé sur l'intégration de la fonction de liaison dans une famille Box-Cox afin de faire un test d'hypothèse du paramètre Box-Cox.
Voir aussi la brève discussion du test de Pregibon dans Breslow (1996) [2] ( voir p 14 ).
η= g( μ )X
rWje= ( yje- μ^je) ( ∂η∂μ)
(vers laquelle je me pencherais pour cette évaluation), ou peut-être en examinant les écarts par rapport à la linéarité dans les résidus partiels, avec un tracé pour chaque prédicteur (voir par exemple, Hardin et Hilbe, Modèles linéaires généralisés et extensions, 2e éd. sec 4.5 .4 p54, pour la définition),
rTk i= ( yje- μ^je) ( ∂η∂μ) + xje kβ^k
= rWje+ xje kβ^k
Dans les cas où les données admettent une transformation par la fonction de lien, vous pouvez rechercher la linéarité de la même manière qu'avec la régression linéaire (bien que vous ayez laissé une asymétrie et éventuellement une hétéroskédasticité).
Dans le cas des prédicteurs catégoriels, le choix de la fonction de lien est davantage une question de commodité ou d'interprétabilité, l'ajustement doit être le même (il n'est donc pas nécessaire de les évaluer).
Vous pouvez également baser un diagnostic sur l'approche de Pregibon.
Ceux-ci ne constituent pas une liste exhaustive; vous pouvez trouver d'autres diagnostics discutés.
[Cela dit, je suis d'accord avec l'évaluation de Gung selon laquelle le choix de la fonction de liaison devrait initialement être basé sur des choses comme des considérations théoriques, si possible.]
Voir également une partie de la discussion dans ce post , qui est au moins en partie pertinente.
[1]: Pregibon, D. (1980),
«Goodness of Link Tests for Generalized Linear Models»,
Journal de la Royal Statistical Society. Série C (Statistiques appliquées) ,
vol. 29, n ° 1, pp. 15-23.
[2]: Breslow NE (1996),
«Modèles linéaires généralisés: vérification des hypothèses et renforcement des conclusions»,
Statistica Applicata 8 , 23-41.
pdf