Je journal transformé ma variable dépendante, puis-je utiliser la distribution normale GLM avec la fonction de lien LOG?

J'ai une question concernant les modèles linéaires généralisés (GLM). Ma variable dépendante (DV) est continue et non normale. Je l'ai donc transformé (toujours pas normal mais amélioré).

Je veux relier le DV avec deux variables catégorielles et une covariable continue. Pour cela, je veux effectuer un GLM (j'utilise SPSS) mais je ne sais pas comment décider de la distribution et de la fonction à choisir.

J'ai effectué le test non paramétrique de Levene et j'ai une homogénéité des variances, donc j'ai tendance à utiliser la distribution normale. J'ai lu que pour la régression linéaire, les données n'ont pas besoin d'être normales, les résidus le font. J'ai donc imprimé les résidus normalisés de Pearson et les valeurs prédites pour le prédicteur linéaire de chaque GLM individuellement (fonction d'identité normale et fonction log normale du GLM). J'ai effectué des tests de normalité (histogramme et Shapiro-Wilk) et tracé les résidus par rapport aux valeurs prédites (pour vérifier le caractère aléatoire et la variance) pour les deux individuellement. Les résidus de la fonction d'identité ne sont pas normaux, mais les résidus de la fonction logarithmique sont normaux. Je suis enclin à choisir normal avec la fonction de liaison de journal car les résidus de Pearson sont normalement distribués.

Mes questions sont donc:

Puis-je utiliser la distribution normale GLM avec la fonction de liaison LOG sur un DV qui a déjà été transformé en journal?
Le test d'homogénéité de la variance est-il suffisant pour justifier l'utilisation d'une distribution normale?
La procédure de vérification résiduelle est-elle correcte pour justifier le choix du modèle de fonction de liaison?

Image de la distribution DV à gauche et des résidus de la normale GLM avec fonction log link à droite.

Distribution DV à gauche et résidus de la normale GLM à droite

— Scientifique
source

Ce n'est pas tout à fait clair ce que vous entendez par ceci: " Donc, j'ai comparé les résidus Pearson de GLM avec la fonction d'identité normale et la fonction de log normale. "

— Glen_b -Reinstate Monica

Merci pour votre commentaire. Je voulais dire que j'avais imprimé les résidus et les valeurs prévues de chaque GLM (identité et journal) individuellement et vérifié la normalité et tracé les résidus Pearson standardisés par rapport aux valeurs prévues pour chaque modèle individuellement. Pour la fonction d'identité, les résidus ne sont pas normaux, alors que pour la fonction log, les résidus sont normaux.

— Scientifique

Comment un graphique des résidus de Pearson normalisés par rapport aux valeurs prédites indique-t-il si les données sont réellement normales ou non?

— Glen_b -Reinstate Monica

J'ai vérifié la normalité en traçant l'histogramme des résidus et en conduisant Shapiro-Wilk (P> 0,05 pour la fonction log). Ensuite, j'ai tracé les résidus par rapport aux valeurs prédites pour voir s'ils étaient distribués au hasard et pour vérifier la variance. (désolé de ne pas dire d'informations importantes, c'est la première fois que je poste)

— Scientifique

Je suppose que "fonction d'identité" est un glissement d'homophone ici pour "fonction de densité".

— Nick Cox

Puis-je utiliser la distribution normale GLM avec la fonction de liaison LOG sur un DV qui a déjà été transformé en journal?

Oui; si les hypothèses sont satisfaites sur cette échelle

Le test d'homogénéité de la variance est-il suffisant pour justifier l'utilisation d'une distribution normale?

Pourquoi l'égalité de variance impliquerait-elle la normalité?

La procédure de vérification résiduelle est-elle correcte pour justifier le choix du modèle de fonction de liaison?

Vous devez vous garder d'utiliser à la fois des histogrammes et des tests d'adéquation pour vérifier l'adéquation de vos hypothèses:

1) Attention à utiliser l'histogramme pour évaluer la normalité. (Voir aussi ici )

En bref, en fonction de quelque chose d'aussi simple qu'un petit changement dans votre choix de largeur de bin, ou même simplement de l'emplacement de la limite de bin, il est possible d'obtenir des impressions très différentes de la forme des données:

Deux histogrammes de résidus

C'est deux histogrammes du même ensemble de données. L'utilisation de plusieurs largeurs de bacs différentes peut être utile pour voir si l'impression est sensible à cela.

2) Méfiez-vous des tests de qualité de l'ajustement pour conclure que l'hypothèse de normalité est raisonnable. Les tests d'hypothèse formels ne répondent pas vraiment à la bonne question.

par exemple, voir les liens sous le point 2. ici

À propos de la variance, qui a été mentionnée dans certains articles utilisant des ensembles de données similaires "parce que les distributions avaient des variances homogènes, un GLM avec une distribution gaussienne a été utilisé". Si ce n'est pas correct, comment puis-je justifier ou décider de la distribution?

Dans des circonstances normales, la question n'est pas "mes erreurs (ou distributions conditionnelles) sont-elles normales?" - ils ne le seront pas, nous n'avons même pas besoin de vérifier. Une question plus pertinente est «dans quelle mesure le degré de non-normalité présent a-t-il un impact sur mes déductions?»

Je suggère une estimation de la densité du noyau ou un QQplot normal (tracé des résidus par rapport aux scores normaux). Si la distribution semble raisonnablement normale, vous n'avez pas à vous inquiéter. En fait, même quand il est clairement non normal , il reste peut pas beaucoup d' importance, en fonction de ce que vous voulez faire (intervalles de prévision normale va vraiment compter sur la normalité, par exemple, mais bien d' autres choses auront tendance à travailler à des échantillons de grande taille )

Curieusement, à de grands échantillons, la normalité devient généralement de moins en moins cruciale (en dehors des IP comme mentionné ci-dessus), mais votre capacité à rejeter la normalité devient de plus en plus grande.

Edit: le point sur l'égalité de variance est que cela peut vraiment avoir un impact sur vos inférences, même avec de grands échantillons. Mais vous ne devriez probablement pas non plus évaluer cela par des tests d'hypothèse. Se tromper sur l'hypothèse de variance est un problème quelle que soit votre distribution supposée.

J'ai lu que la déviance à l'échelle devrait être autour de Np pour le modèle pour un bon ajustement, non?

Lorsque vous ajustez un modèle normal, il a un paramètre d'échelle, auquel cas votre déviance à l'échelle sera d'environ Np même si votre distribution n'est pas normale.

à votre avis, la distribution normale avec un lien de journal est un bon choix

En l'absence continue de savoir ce que vous mesurez ou pour quoi vous utilisez l'inférence, je ne peux toujours pas juger s'il faut suggérer une autre distribution pour le GLM, ni à quel point la normalité pourrait être importante pour vos inférences.

Cependant, si vos autres hypothèses sont également raisonnables (la linéarité et l'égalité de variance doivent au moins être vérifiées et les sources potentielles de dépendance prises en compte), dans la plupart des cas, je serais très à l'aise de faire des choses comme utiliser des IC et effectuer des tests sur les coefficients ou les contrastes - il n'y a qu'une très légère impression d'asymétrie dans ces résidus, qui, même si c'est un effet réel, ne devrait pas avoir d'impact substantiel sur ce type d'inférence.

Bref, ça devrait aller.

(Alors qu'une autre fonction de distribution et de liaison pourrait faire un peu mieux en termes d'ajustement, ce n'est que dans des circonstances restreintes qu'elles auraient également plus de sens.)

— Glen_b -Reinstate Monica
source

Merci encore! À propos de la variance, qui a été mentionnée dans certains articles utilisant des ensembles de données similaires "parce que les distributions avaient des variances homogènes, un GLM avec une distribution gaussienne a été utilisé". Si ce n'est pas correct, comment puis-je justifier ou décider de la distribution? Concernant la distribution normale résiduelle, cela signifie qu'elle est plus appropriée non? J'ai lu que la déviance à l'échelle devrait être autour de Np pour le modèle pour un bon ajustement, non? La valeur est la même pour les deux GLM et autour de Np. J'ai également identifié le modèle le plus approprié dans le modèle en utilisant les critères AIC. Je ne sais pas si c'est ce que vous vouliez dire.

— Scientifique

voir la discussion dans mes modifications ci

— Glen_b -Reinstate Monica

Merci @Glen_b pour la belle explication. L'histogramme que j'ai également testé avec Shapiro-Wilk, ne considérera-t-il pas tout? J'ai tracé QQ tracé les valeurs résiduelles normales et observées de Pearson et les points + - correspondent à la ligne, sauf dans les pointes où ils montent légèrement vers le haut. Est-ce que c'est ce que vous vouliez dire? La distribution des résidus semble normale, donc je peux continuer? (même si la DV enregistrée n'est pas normale) (je lis toujours les liens mais je voulais demander ceci)

— Scientifique

" parce que le tracé QQ normal était normalement distribué pour ce modèle? " ... Je pourrais dire "Le tracé QQ des résidus suggère que l'hypothèse de normalité est raisonnable" ou "les résidus semblent raisonnablement proches de la normale". Si votre public attend des tests d'hypothèses, vous pouvez toujours en citer un (mais cela ne change rien au fait qu'ils ne sont pas particulièrement utiles). " Le problème avec l'ensemble de données est que dans l'histogramme du DV " ... il n'y a aucune hypothèse sur la distribution du DV inconditionnel ou de l'un des IV.

— Glen_b -Reinstate Monica

Voir la discussion supplémentaire au bas de ma réponse. Désolé de ne pas avoir répondu plus tôt, mais je dormais. Sur l'autre question, la raison pour laquelle j'ai demandé était que les deux modèles partagent la plupart de leurs hypothèses, et donc à peu près toute cette discussion est pertinente pour cette question - même si le DV est différent. Ce n'est pas exactement la même situation (et devrait donc être une nouvelle question), mais cette question doit être liée à celle-ci, vous pouvez donc poser des questions dans le contexte de cette discussion, par exemple s'il y a des problèmes différents ou supplémentaires.

— Glen_b -Reinstate Monica