Diagnostics pour les modèles linéaires généralisés (mixtes) (en particulier les résidus)

25

J'ai actuellement du mal à trouver le bon modèle pour les données de comptage difficiles (variable dépendante). J'ai essayé différents modèles (des modèles à effets mixtes sont nécessaires pour mon type de données) tels que lmeret lme4(avec une transformation logarithmique) ainsi que des modèles à effets mixtes linéaires généralisés avec différentes familles telles que gaussiennes ou binomiales négatives.

Cependant, je ne sais pas trop comment diagnostiquer correctement les ajustements résultants. J'ai trouvé beaucoup d'opinions différentes sur ce sujet sur le Web. Je pense que les diagnostics sur la régression linéaire (mixte) sont assez simples. Vous pouvez aller de l'avant et analyser les résidus (normalité) ainsi qu'étudier l'hétéroscédasticité en traçant des valeurs ajustées par rapport aux résidus.

Cependant, comment faites-vous correctement cela pour la version généralisée? Concentrons-nous sur une régression binomiale négative (mixte) pour l'instant. J'ai vu des déclarations assez opposées concernant les résidus ici:

Dans la vérification de la normalité des résidus dans les modèles linéaires généralisés, il est souligné dans la première réponse que les résidus simples ne sont pas normalement distribués pour un GLM; Je pense que c'est clair. Cependant, il est alors souligné que les résidus de Pearson et de déviance ne sont pas non plus censés être normaux. Pourtant, la deuxième réponse indique que les résidus de déviance devraient être normalement distribués (combinés avec une référence).
Le fait que les résidus de déviance devraient être normalement distribués est cependant indiqué dans la documentation de ? Glm.diag.plots (du bootpackage de R ).
Dans cet article de blog , l'auteur a d'abord étudié la normalité de ce que je suppose être des résidus de Pearson pour un modèle de régression à effets mixtes du Nouveau-Brunswick. Comme prévu (à mon avis honnête), les résidus ne se sont pas révélés normaux et l'auteur a supposé que ce modèle ne convenait pas. Cependant, comme indiqué dans les commentaires, les résidus doivent être distribués selon une distribution binomiale négative. À mon avis, cela se rapproche le plus de la vérité car les résidus GLM peuvent avoir d'autres distributions que la normale. Est-ce correct? Comment vérifier des choses comme l'hétéroscédasticité ici?
Le dernier point (tracé des résidus par rapport aux quantiles de la distribution estimée) est souligné dans Ben & Yohai (2004) . Actuellement, cela semble être la voie à suivre pour moi.

En un mot: comment étudiez-vous correctement les ajustements de modèle des modèles de régression linéaire (mixte) généralisés spécifiquement en mettant l'accent sur les résidus?

— fsociety
source

1

Les résidus pour les GLM ne sont généralement pas normaux (cf. ici ), mais notez qu'il existe de nombreux types de résidus pour les GLM. Par exemple, glm.diag.plotsdit que c'est pour la déviance résiduelle jackknifed (je soupçonne que la distinction est importante). Aussi, je suppose que vous avez des données de comptage ; vous voudrez peut-être vous concentrer sur ce fait. Par exemple, les dénombrements sont supposés (dans un certain sens) être hétéroscédastiques. Les tracés de diagnostic pour la régression du comptage devraient vous être utiles (bien qu'ils ne traitent pas de l'aspect des effets mixtes).

— gung - Rétablir Monica

Je connais le poste que vous avez mentionné. Cependant, il y a aussi une déclaration qui suggère que les résidus (de déviance) devraient être normaux "nous voyons des résidus très importants et une déviance substantielle des résidus de déviance par rapport à la normale (tous parlant contre le Poisson)".

— fsociety

19

Cette réponse n'est pas basée sur mes connaissances mais cite plutôt ce que Bolker et al. (2009) a écrit dans un article influent de la revue Trends in Ecology and Evolution . Étant donné que l'article n'est pas en accès libre (bien que sa recherche sur Google scholar puisse s'avérer réussie, j'ai pensé citer des passages importants qui pourraient être utiles pour répondre à certaines parties des questions. Encore une fois, ce n'est pas ce que j'ai trouvé moi-même mais je pense il représente la meilleure information condensée sur les GLMM (y compris les diagnostics) dans un style d'écriture très simple et facile à comprendre. Si par quelque moyen que ce soit, cette réponse ne convient pas pour une raison quelconque, je vais simplement la supprimer. Les choses que je trouve utile en ce qui concerne les questions concernant les diagnostics sont mis en évidence dansgras .

Page 127:

Les chercheurs confrontés à des données non normales essaient souvent des raccourcis tels que la transformation de données pour atteindre la normalité et l'homogénéité de la variance, en utilisant des tests non paramétriques ou en s'appuyant sur la robustesse de l'ANOVA classique à la non-normalité pour des conceptions équilibrées [15]. Ils pourraient ignorer complètement les effets aléatoires (commettant ainsi une pseudoréplication) ou les traiter comme des facteurs fixes [16]. Cependant, ces raccourcis peuvent échouer (par exemple, les données de comptage avec de nombreuses valeurs nulles ne peuvent pas être rendues normales par transformation). Même lorsqu'ils réussissent, ils peuvent violer des hypothèses statistiques (même des tests non paramétriques font des hypothèses, par exemple d'homogénéité de la variance entre les groupes) ou limiter la portée de l'inférence (on ne peut pas extrapoler les estimations des effets fixes à de nouveaux groupes). Au lieu de saboter leurs données dans des cadres statistiques classiques, les chercheurs devraient utiliser des approches statistiques qui correspondent à leurs données. Les modèles mixtes linéaires généralisés (GLMM) combinent les propriétés de deux cadres statistiques largement utilisés en écologie et en évolution, les modèles mixtes linéaires (qui intègrent des effets aléatoires) et les modèles linéaires généralisés (qui traitent les données non normales en utilisant des fonctions de lien et une famille exponentielle [par exemple distribution normale, Poisson ou binomiale]. Les GLMM sont le meilleur outil pour analyser des données non normales qui impliquent des effets aléatoires: il suffit, en principe, de spécifier une distribution, une fonction de lien et une structure des effets aléatoires. des modèles mixtes linéaires (qui intègrent des effets aléatoires) et des modèles linéaires généralisés (qui gèrent des données non normales en utilisant des fonctions de liaison et des distributions de familles exponentielles [par exemple, normale, Poisson ou binomiale]). Les GLMM sont le meilleur outil pour analyser des données non normales qui impliquent des effets aléatoires: il suffit, en principe, de spécifier une distribution, une fonction de lien et une structure des effets aléatoires. des modèles mixtes linéaires (qui intègrent des effets aléatoires) et des modèles linéaires généralisés (qui gèrent des données non normales en utilisant des fonctions de liaison et des distributions de familles exponentielles [par exemple, normale, Poisson ou binomiale]). Les GLMM sont le meilleur outil pour analyser des données non normales qui impliquent des effets aléatoires: il suffit, en principe, de spécifier une distribution, une fonction de lien et une structure des effets aléatoires.

Page 129, encadré 1:

Les résidus indiquent une surdispersion , nous avons donc réaménagé les données avec un modèle quasi-Poisson. Malgré le paramètre à grande échelle estimé (10,8), les graphiques exploratoires n'ont trouvé aucune preuve de valeurs aberrantes au niveau des individus, des génotypes ou des populations. Nous avons utilisé le quasi-AIC (QAIC), en utilisant un degré de liberté pour les effets aléatoires [49], pour l'effet aléatoire et ensuite pour la sélection du modèle à effet fixe.

Page 133, encadré 4:

Nous décrivons ici un cadre général pour la construction d'un modèle complet (le plus complexe), la première étape de l'analyse GLMM. À la suite de ce processus, on peut ensuite évaluer les paramètres et comparer les sous-modèles comme décrit dans le texte principal et dans la figure 1.

Précisez les effets fixes (traitements ou covariables) et aléatoires (blocs expérimentaux, spatiaux ou temporels, individus, etc.). N'incluez que les interactions importantes. Restreindre le modèle a priori à un niveau de complexité réalisable, basé sur des règles empiriques (> 5 à 6 niveaux d'effet aléatoire par effet aléatoire et> 10 à 20 échantillons par niveau de traitement ou unité expérimentale) et la connaissance des tailles d'échantillon adéquates tirées de études antérieures [64,65].

Choisissez une distribution d'erreur et une fonction de lien (par exemple, distribution de Poisson et lien de journal pour les données de comptage, distribution binomiale et lien de logit pour les données de proportion).

Vérification graphique : les variances de données (transformées par la fonction de lien) sont-elles homogènes entre les catégories? Les réponses des données transformées sont-elles linéaires par rapport aux prédicteurs continus? Y a-t-il des individus ou des groupes aberrants? Les distributions au sein des groupes correspondent-elles à la distribution supposée?

Ajuster les GLM à effet fixe à la fois à l'ensemble de données (regroupé) et à l'intérieur de chaque niveau des facteurs aléatoires [28,50]. Les paramètres estimés doivent être répartis approximativement normalement entre les groupes (les paramètres au niveau du groupe peuvent avoir de grandes incertitudes, en particulier pour les groupes avec de petits échantillons). Ajustez le modèle si nécessaire (par exemple, changez la fonction de lien ou ajoutez des covariables).

Montez le GLMM complet. Mémoire d'ordinateur insuffisante ou trop lente: réduisez la complexité du modèle. Si l'estimation réussit sur un sous-ensemble des données, essayez un algorithme d'estimation plus efficace (par exemple PQL si approprié). Échec de la convergence (avertissements ou erreurs): réduisez la complexité du modèle ou modifiez les paramètres d'optimisation (assurez-vous que les réponses obtenues ont un sens). Essayez d'autres algorithmes d'estimation. Composantes à variance nulle ou singularité (avertissements ou erreurs): vérifier que le modèle est correctement défini et identifiable (c'est-à-dire que toutes les composantes peuvent théoriquement être estimées). Réduisez la complexité du modèle. L'ajout d'informations au modèle (covariables supplémentaires ou nouveaux regroupements d'effets aléatoires) peut atténuer les problèmes, tout comme le centrage de covariables continues en soustrayant leur moyenne [50]. Si nécessaire, éliminez les effets aléatoires du modèle complet, la suppression (i) de termes présentant un intérêt biologique moins intrinsèque, (ii) de termes avec de très petites variances estimées et / ou une grande incertitude, ou (iii) de termes d'interaction. (Des erreurs de convergence ou des écarts nuls pourraient indiquer des données insuffisantes.)

$\chi^2$

Les graphiques des résidus devraient être utilisés pour évaluer la surdispersion et les variances transformées devraient être homogènes d'une catégorie à l'autre. Nulle part dans l'article n'a été mentionné que les résidus sont censés être normalement distribués.

Je pense que la raison pour laquelle il y a des déclarations contrastées reflète que les GLMM (page 127-128) ...

... sont étonnamment difficiles à utiliser même pour les statisticiens. Bien que plusieurs progiciels puissent gérer les GLMM (tableau 1), peu d'écologistes et de biologistes évolutionnistes connaissent la gamme d'options ou les pièges possibles. En examinant les articles sur l'écologie et l'évolution depuis 2005 trouvés par Google Scholar, 311 des 537 analyses GLMM (58%) ont utilisé ces outils de manière inappropriée d'une manière ou d'une autre (voir la documentation supplémentaire en ligne).

Et voici quelques exemples complets d'utilisation de GLMM, y compris des diagnostics.

Je me rends compte que cette réponse ressemble plus à un commentaire et doit être traitée comme telle. Mais la section des commentaires ne me permet pas d'ajouter un commentaire aussi long. De plus, étant donné que je pense que cet article est utile pour cette discussion (mais malheureusement derrière un mur de paiement), j'ai pensé qu'il serait utile de citer ici des passages importants.

Documents cités:

[15] - GP Quinn, MJ Keough (2002): Conception expérimentale et analyse des données pour les biologistes, Cambridge University Press.

[16] - MJ Crawley (2002): Calcul statistique: introduction à l'analyse des données à l'aide de S-PLUS, John Wiley & Sons.

[28] - JC Pinheiro, DM Bates (2000): Modèles à effets mixtes en S et S-PLUS, Springer.

[49] - F. Vaida, S. Blanchard (2005): Information conditionnelle d'Akaike pour les modèles à effets mixtes. Biometrika, 92, p. 351–370.

[50] - A. Gelman, J. Hill (2006): Data Analysis Using Regression and Multilevel / Hierarchical Models, Cambridge University Press.

[64] - NJ Gotelli, AM Ellison (2004): Une introduction aux statistiques écologiques, Sinauer Associates.

[65] - FJ Harrell (2001): Stratégies de modélisation de la régression, Springer.

[66] - JK Lindsey (1997): Application de modèles linéaires généralisés, Springer.

[67] - W. Venables, BD Ripley (2002): Statistiques appliquées modernes avec S, Springer.

— Stefan
source

Merci, c'est effectivement utile, je connaissais les exemples de codage de Bolker, mais pas le papier en quelque sorte. Cependant, je me demande encore comment la vérification graphique s'applique aux données à très grande échelle avec des milliers de groupes. Les quelques articles (comme celui-ci) qui tentent de donner des directives sur la façon de vérifier correctement vos modèles ne s'appliquent qu'à des données à très petite échelle. Ensuite, il est beaucoup plus facile de choisir, par exemple, les groupes et de visualiser quelque chose. Je pense vraiment qu'une bonne contribution scientifique peut être apportée si quelqu'un passe par un exemple plus complexe à l'avenir.

— fsociety

1

Je suis content que ce soit utile! Je pense que les exemples présentés sont déjà assez complexes (du moins pour moi). Je suppose que le plus gros problème est que des ensembles de données plus volumineux et des modèles plus complexes peuvent devenir infaisables sur le plan informatique, comme cela est mentionné dans le texte: "[...] pour trouver des estimations de ML, il faut intégrer les probabilités sur toutes les valeurs possibles des effets aléatoires. Pour les GLMM ce calcul est au mieux lent et au pire (par exemple pour un grand nombre d'effets aléatoires) impossible à calculer. " Ce que je trouve étonnant cependant, et ce qu'il faut garder à l'esprit, c'est que nous utilisons des outils qui font l'objet d'une recherche active!

— Stefan

9

C'est une vieille question, mais j'ai pensé qu'il serait utile d'ajouter que l'option 4 suggérée par l'OP est désormais disponible dans le package DHARMa R (disponible auprès du CRAN, voir ici ).

Le package rend les contrôles visuels résiduels suggérés par la réponse acceptée beaucoup plus fiables / faciles.

De la description du package:

Le package DHARMa utilise une approche basée sur la simulation pour créer des résidus échelonnés facilement interprétables à partir de modèles mixtes linéaires généralisés ajustés. Actuellement, toutes les classes 'merMod' de 'lme4' ('lmerMod', 'glmerMod'), 'glm' (y compris 'negbin' de 'MASS', mais excluant les quasi-distributions) et les classes de modèle 'lm' sont actuellement prises en charge. Alternativement, des simulations créées en externe, par exemple des simulations prédictives postérieures à partir de logiciels bayésiens tels que «JAGS», «STAN» ou «BUGS» peuvent également être traitées. Les résidus résultants sont normalisés à des valeurs comprises entre 0 et 1 et peuvent être interprétés aussi intuitivement que les résidus d'une régression linéaire. Le package fournit également un certain nombre de fonctions de tracé et de test pour un problème typique de mauvaise spécification du modèle,

— Florian Hartig
source

1

Très bon ajout à ce fil!

— Stefan