GLM: vérification d'un choix de distribution et fonction de lien

14

J'ai un modèle linéaire généralisé qui adopte une distribution gaussienne et une fonction de liaison logarithmique. Après avoir ajusté le modèle, je vérifie les résidus: tracé QQ, résidus vs valeurs prédites, histogramme des résidus (reconnaissant qu'il faut faire preuve de prudence). Tout a l'air bien. Cela semble suggérer (pour moi) que le choix d'une distribution gaussienne était tout à fait raisonnable. Ou, au moins, que les résidus sont cohérents avec la distribution que j'ai utilisée dans mon modèle.

Q1 : Serait-ce aller trop loin pour dire qu'elle valide mon choix de distribution?

J'ai choisi une fonction de lien de journal parce que ma variable de réponse est toujours positive, mais j'aimerais une sorte de confirmation que c'était un bon choix.

Q2 : Existe-t-il des tests, comme la vérification des résidus pour le choix de la distribution, qui peuvent prendre en charge mon choix de fonction de lien? (Le choix d'une fonction de lien me semble un peu arbitraire, car les seules lignes directrices que je peux trouver sont assez vagues et onduleuses, probablement pour une bonne raison.)

regression generalized-linear-model link-function

— Lyngbakr
source

2

Q1. Vous pouvez essayer d'autres distributions et voir si elles fonctionnent mieux. Q2. Choisir un lien de journal pour assurer des prédictions positives ne me semble pas arbitraire. C'est une justification. Mais si vous obtiendriez des prédictions négatives avec un lien d'identité et les données que vous possédez pourraient à leur tour être vérifiées. Bottom line: vous ne pouvez pas être clair que d'autres modèles ne seraient pas meilleurs avant de les avoir essayés.

— Nick Cox

1

Merci pour la réponse, @Nick. J'avais peur que ce soit simplement une affaire de sucer-et-voir, comme vous le dites. Je ne suis pas tellement inquiet que ce soit nécessairement le meilleur modèle, juste que les hypothèses peuvent être justifiées. Une idée avec laquelle j'ai joué consiste à tracer mes observations,

, contre la transformée exponentielle du prédicteur linéaire,

. Vraisemblablement, plus les points sont proches de la ligne 1: 1, meilleure est l'hypothèse d'une fonction de liaison logarithmique? De plus, je pourrais quantifier cela avec un

pour la ligne 1: 1. (Je ne suis pas un statisticien, donc je ne sais pas à quel point ces cludges sont risibles.)

Y

$Y$

\exp (η)

$\exp(\eta)$

R^{2}

$R^2$

— Lyngbakr

2

Je ne suis pas non plus un statisticien, mais j'ai utilisé des graphiques similaires pour évaluer les modèles. Voir par exemple stata-journal.com/sjpdf.html?articlenum=gr0009 J'ai également utilisé un analogue

comme mesure descriptive sans me sentir trop coupable: voir stats.stackexchange.com/questions/68066/… pour plus de détails.

R^{2}

$R^2$

— Nick Cox

13

Il s'agit d'une variante de la question fréquemment posée pour savoir si vous pouvez affirmer l'hypothèse nulle. Dans votre cas, le nul serait que les résidus sont gaussiens, et l'inspection visuelle de vos parcelles (qq-parcelles, histogrammes, etc.) constitue le «test». (Pour un aperçu général de la question de l'affirmation du null, il peut être utile de lire ma réponse ici: pourquoi les statisticiens disent-ils qu'un résultat non significatif signifie «vous ne pouvez pas rejeter le null» au lieu d'accepter l'hypothèse nulle? ) Dans votre cas spécifique, vous pouvez dire que les graphiques montrent que vos résidus sont cohérents avec votre hypothèse de normalité, mais ils ne "valident" pas l'hypothèse.
Vous pouvez adapter votre modèle à l'aide de différentes fonctions de liaison et les comparer, ~~mais il n'y a pas de test d'une seule fonction de liaison de manière isolée~~ (ce qui est évidemment incorrect, voir la réponse de @ Glen_b ). Dans ma réponse à Différence entre les modèles logit et probit (qui peut être utile à lire, bien que ce ne soit pas tout à fait la même), je soutiens que les fonctions de liaison devraient être choisies en fonction de:
1. Connaissance de la distribution des réponses,
2. Considérations théoriques, et
3. Ajustement empirique aux données.
$Y$ $Y$ de devenir négatif, il induit également une forme spécifique à la relation curviligne. Un tracé standard des valeurs résiduelles par rapport aux valeurs ajustées (peut-être avec un ajustement de Loess superposé) vous aidera à identifier si la courbure intrinsèque dans vos données correspond raisonnablement à la courbure spécifique imposée par le lien de journal. Comme je l'ai mentionné, vous pouvez également essayer n'importe quelle autre transformation répondant à vos critères théoriques et comparer les deux ajustements directement.

— gung - Réintégrer Monica
source

16

Serait-ce aller trop loin pour dire qu'elle valide mon choix de distribution?

Cela dépend en quelque sorte de ce que vous entendez par «valider» exactement, mais je dirais «oui, cela va trop loin» de la même manière que vous ne pouvez pas vraiment dire «le null est vrai», (en particulier avec des points nuls, mais dans au moins un certain sens plus généralement). Vous ne pouvez vraiment dire que "eh bien, nous n'avons pas de preuves solides que c'est faux". Mais en tout cas, nous ne nous attendons pas à ce que nos modèles soient parfaits, ce sont des modèles . Ce qui importe, comme l'a dit Box & Draper, c'est "à quel point doivent-ils se tromper pour ne pas être utiles? "

L'une ou l'autre de ces deux phrases antérieures:

Cela semble suggérer (pour moi) que le choix d'une distribution gaussienne était tout à fait raisonnable. Ou, au moins, que les résidus sont cohérents avec la distribution que j'ai utilisée dans mon modèle.

Décrivez beaucoup plus précisément ce que vos diagnostics indiquent - non pas qu'un modèle gaussien avec lien de connexion était correct - mais qu'il était raisonnable ou cohérent avec les données.

J'ai choisi une fonction de lien de journal parce que ma variable de réponse est toujours positive, mais j'aimerais une sorte de confirmation que c'était un bon choix.

Si vous savez qu'il doit être positif, sa moyenne doit être positive. Il est judicieux de choisir un modèle qui soit au moins cohérent avec cela. Je ne sais pas si c'est un bon choix (il pourrait bien y avoir de bien meilleurs choix), mais c'est une chose raisonnable à faire; ça pourrait bien être mon point de départ. [Cependant, si la variable elle-même est nécessairement positive, ma première pensée tendrait à être Gamma avec log-link, plutôt que Gaussienne. "Nécessairement positif" suggère à la fois une asymétrie et une variance qui changent avec la moyenne.]

Q2: Existe-t-il des tests, comme la vérification des résidus pour le choix de la distribution, qui peuvent prendre en charge mon choix de fonction de lien?

Il semble que vous ne vouliez pas dire «test» comme dans «test d'hypothèse formel» mais plutôt comme «vérification diagnostique».

Dans les deux cas, la réponse est oui.

Un test d'hypothèse formel est le test de qualité de liaison de Pregibon [1].

Ceci est basé sur l'intégration de la fonction de liaison dans une famille Box-Cox afin de faire un test d'hypothèse du paramètre Box-Cox.

Voir aussi la brève discussion du test de Pregibon dans Breslow (1996) [2] ( voir p 14 ).

$\eta=g(\mu)$ $x$

$r^W_i=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)$

(vers laquelle je me pencherais pour cette évaluation), ou peut-être en examinant les écarts par rapport à la linéarité dans les résidus partiels, avec un tracé pour chaque prédicteur (voir par exemple, Hardin et Hilbe, Modèles linéaires généralisés et extensions, 2e éd. sec 4.5 .4 p54, pour la définition),

$\quad r^T_{ki}=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)+x_{ik}\hat{\beta}_k$

$\qquad\:=r^W_i+x_{ik}\hat{\beta}_k$

Dans les cas où les données admettent une transformation par la fonction de lien, vous pouvez rechercher la linéarité de la même manière qu'avec la régression linéaire (bien que vous ayez laissé une asymétrie et éventuellement une hétéroskédasticité).

Dans le cas des prédicteurs catégoriels, le choix de la fonction de lien est davantage une question de commodité ou d'interprétabilité, l'ajustement doit être le même (il n'est donc pas nécessaire de les évaluer).

Vous pouvez également baser un diagnostic sur l'approche de Pregibon.

Ceux-ci ne constituent pas une liste exhaustive; vous pouvez trouver d'autres diagnostics discutés.

[Cela dit, je suis d'accord avec l'évaluation de Gung selon laquelle le choix de la fonction de liaison devrait initialement être basé sur des choses comme des considérations théoriques, si possible.]

Voir également une partie de la discussion dans ce post , qui est au moins en partie pertinente.

[1]: Pregibon, D. (1980),
«Goodness of Link Tests for Generalized Linear Models»,
Journal de la Royal Statistical Society. Série C (Statistiques appliquées) ,
vol. 29, n ° 1, pp. 15-23.

[2]: Breslow NE (1996),
«Modèles linéaires généralisés: vérification des hypothèses et renforcement des conclusions»,
Statistica Applicata 8 , 23-41.
pdf

— Glen_b -Reinstate Monica
source