D'après mes résultats, il apparaît que GLM Gamma répond à la plupart des hypothèses, mais est-ce une amélioration intéressante par rapport au LM transformé en log? La plupart de la littérature que j'ai trouvée traite des GLM de Poisson ou binomiaux. J'ai trouvé l'article ÉVALUATION DES HYPOTHÈSES DE MODÈLE LINÉAIRE GÉNÉRALISÉ À L'AIDE DE LA RANDOMISATION très utile, mais il manque les tracés réels utilisés pour prendre une décision. J'espère que quelqu'un d'expérience peut me diriger dans la bonne direction.
Je veux modéliser la distribution de ma variable de réponse T, dont la distribution est tracée ci-dessous. Comme vous pouvez le voir, il est positif dissymétrie:
.
J'ai deux facteurs catégoriques à considérer: METH et CASEPART.
Notez que cette étude est principalement exploratoire, servant essentiellement d'étude pilote avant de théoriser un modèle et d'effectuer le DoE autour de lui.
J'ai les modèles suivants en R, avec leurs tracés de diagnostic:
LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)
GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))
GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))
J'ai également atteint les valeurs P suivantes via le test de Shapiro-Wilks sur les résidus:
LM.LOG: 2.347e-11
GLM.GAMMA: 0.6288
GLM.GAUS: 0.6288
J'ai calculé les valeurs AIC et BIC, mais si je me trompe, ils ne me disent pas grand-chose en raison des différentes familles dans les GLM / LM.
J'ai également noté les valeurs extrêmes, mais je ne peux pas les classer comme des valeurs aberrantes car il n'y a pas de "cause spéciale" claire.