Log vs lien racine carrée pour les données de Poisson dans R

8

Je travaille actuellement à modéliser les décès dus au sida au fil du temps à l'aide d'un GLM dans R. Je sais qu'il existe deux options possibles pour la fonction de lien pour les données de Poisson, le logarithme et la racine carrée.

Je sais que la racine carrée atténuerait les problèmes de variabilité alors que le log est nécessaire pour redresser la courbe. Mais, comment puis-je réellement tester quel lien est le meilleur pour les données?

— Ellie
source

2

Peut-être intéressant: pourquoi la transformation de racine carrée est-elle recommandée pour les données de comptage?

— gung - Réintégrer Monica

6

Vous confondez l'effet d'une transformation de données avec l'utilisation d'une fonction de lien dans un GLM.

Si vous effectuez une transformation logarithmique de la réponse, cela "redressera la relation" si est de la forme . De même, si vous prenez la racine carrée de la réponse, cela rendra la variance presque constante, si la variance est proportionnelle à la moyenne (comme c'est le cas avec un Poisson, où elle est égale à la moyenne). $E(Y|x)$ $\exp(a+bx)$

Cependant, dans un GLM, la fonction de liaison n'est pas utilisée pour transformer les données.

Le GLM lui-même prend en compte le fait que la variance du Poisson augmente avec la moyenne; vous n'avez rien à faire à ce sujet (tant que l'hypothèse de Poisson convient).

Il ne restait plus qu'à rendre compte de la relation entre le prédicteur et la réponse. La fonction de liaison spécifie la forme de la relation entre la moyenne conditionnelle de la réponse et le prédicteur.

Le lien sqrt est principalement utilisé à des fins de comparaison avec une analyse plus ancienne où une transformation de racine carrée était utilisée afin d'appliquer la régression des moindres carrés. En utilisant le lien racine carrée, vous pouvez adapter un modèle de la même forme fonctionnelle mais avec une estimation ML complète des paramètres.

Si vous envisagez d'utiliser le journal en raison du fait qu'il a linéarisé la relation, c'est certainement le lien que vous devez utiliser. (En général, le lien du journal est également plus facile à interpréter.)

Si vous vouliez vraiment profiter des deux fonctions de liaison et choisir entre elles, vous pourriez comparer les AIC; ou vous pouvez comparer les écarts (il y a bien sûr d'autres choix, mais les deux sont déjà fournis dans la sortie récapitulative et ils mesurent l'adéquation; peu importe ce que vous regardez, ils devraient conduire à la même conclusion). Cependant, à moins qu'il n'y ait une indication claire que le lien de journal est inadéquat ou une autre raison pour entretenir le lien racine carrée, je ferais simplement le lien de journal.

Notez que si vous utilisez les données pour choisir entre les fonctions de liaison, les tests d'hypothèse ultérieurs des coefficients estimés à partir des mêmes points de données n'auront (entre autres) plus leurs propriétés nominales (les erreurs standard seront trop petites, les intervalles de confiance trop étroits , les valeurs de p ne signifient pas la même chose ...)

(Soit dit en passant, ce ne sont pas les deux seules options de fonction de lien pour un Poisson dans R, car il y a aussi le lien d'identité ... et cela ne compte pas ce que vous pouvez faire si vous passez à un ajustement quasi-Poisson)

Un avertissement: si vous modélisez une variable dans le temps, vous devez garder à l'esprit qu'il y a (a) une dépendance temporelle dans vos décomptes, d'une manière qui invaliderait les hypothèses d'indépendance du GLM (par exemple, vos erreurs standard pourraient facilement se tromper); et (b) la notion de régression parasite peut s'appliquer aussi facilement à une régression de Poisson qu'à une régression ordinaire (de sorte que vos estimations de paramètres pourraient facilement être fausses / trompeuses également).

Je doute que votre série soit stationnaire, c'est donc potentiellement une menace sérieuse pour vos conclusions - mais une régression parasite peut être un problème même avec des séries stationnaires (un point qui n'est pas si largement compris; je donne une référence pour cela dans ce réponse dont la réponse illustre également le phénomène avec des corrélations dans le cas non stationnaire avec un simple exemple de lancer de pièces).

— Glen_b -Reinstate Monica
source

1

Si vous ajustez un GLiM avec une distribution de Poisson spécifiée pour la réponse, vous n'avez pas besoin d'essayer de stabiliser la variance conditionnelle de la réponse. Cela est automatiquement pris en charge pour vous. Le GLiM de Poisson ne suppose pas de variance constante dans le sens où un modèle de régression linéaire (gaussien) régulier le fait.

L'effet de la fonction de liaison sera de changer la forme de la ligne de régression dans l'espace de données d'origine, et donc de changer l'interprétation des coefficients. Si vous vous demandez si la forme / la quantité de courbure sera appropriée, vous pouvez toujours utiliser des splines. Ainsi, vous voudrez peut-être choisir le lien à utiliser en fonction de l'interprétabilité de vos coefficients. À mon avis, cela favorisera généralement le lien du journal.

Si vous vouliez uniquement utiliser vos covariables sans fonctions splines et que vous vouliez déterminer quelle forme correspondait mieux à vos données, vous pourriez utiliser la validation croisée et examiner l'erreur prédictive hors échantillon.

Bien qu'écrite dans le contexte des GLiM binomiaux (pas de Poisson), vous pouvez toujours être intéressé par la lecture de ma réponse ici: Différence entre les modèles logit et probit .

— gung - Réintégrer Monica
source