Cette réponse n'est pas basée sur mes connaissances mais cite plutôt ce que Bolker et al. (2009) a écrit dans un article influent de la revue Trends in Ecology and Evolution . Étant donné que l'article n'est pas en accès libre (bien que sa recherche sur Google scholar puisse s'avérer réussie, j'ai pensé citer des passages importants qui pourraient être utiles pour répondre à certaines parties des questions. Encore une fois, ce n'est pas ce que j'ai trouvé moi-même mais je pense il représente la meilleure information condensée sur les GLMM (y compris les diagnostics) dans un style d'écriture très simple et facile à comprendre. Si par quelque moyen que ce soit, cette réponse ne convient pas pour une raison quelconque, je vais simplement la supprimer. Les choses que je trouve utile en ce qui concerne les questions concernant les diagnostics sont mis en évidence dansgras .
Page 127:
Les chercheurs confrontés à des données non normales essaient souvent des raccourcis tels que la transformation de données pour atteindre la normalité et l'homogénéité de la variance, en utilisant des tests non paramétriques ou en s'appuyant sur la robustesse de l'ANOVA classique à la non-normalité pour des conceptions équilibrées [15]. Ils pourraient ignorer complètement les effets aléatoires (commettant ainsi une pseudoréplication) ou les traiter comme des facteurs fixes [16]. Cependant, ces raccourcis peuvent échouer (par exemple, les données de comptage avec de nombreuses valeurs nulles ne peuvent pas être rendues normales par transformation). Même lorsqu'ils réussissent, ils peuvent violer des hypothèses statistiques (même des tests non paramétriques font des hypothèses, par exemple d'homogénéité de la variance entre les groupes) ou limiter la portée de l'inférence (on ne peut pas extrapoler les estimations des effets fixes à de nouveaux groupes). Au lieu de saboter leurs données dans des cadres statistiques classiques, les chercheurs devraient utiliser des approches statistiques qui correspondent à leurs données. Les modèles mixtes linéaires généralisés (GLMM) combinent les propriétés de deux cadres statistiques largement utilisés en écologie et en évolution, les modèles mixtes linéaires (qui intègrent des effets aléatoires) et les modèles linéaires généralisés (qui traitent les données non normales en utilisant des fonctions de lien et une famille exponentielle [par exemple distribution normale, Poisson ou binomiale]. Les GLMM sont le meilleur outil pour analyser des données non normales qui impliquent des effets aléatoires: il suffit, en principe, de spécifier une distribution, une fonction de lien et une structure des effets aléatoires. des modèles mixtes linéaires (qui intègrent des effets aléatoires) et des modèles linéaires généralisés (qui gèrent des données non normales en utilisant des fonctions de liaison et des distributions de familles exponentielles [par exemple, normale, Poisson ou binomiale]). Les GLMM sont le meilleur outil pour analyser des données non normales qui impliquent des effets aléatoires: il suffit, en principe, de spécifier une distribution, une fonction de lien et une structure des effets aléatoires. des modèles mixtes linéaires (qui intègrent des effets aléatoires) et des modèles linéaires généralisés (qui gèrent des données non normales en utilisant des fonctions de liaison et des distributions de familles exponentielles [par exemple, normale, Poisson ou binomiale]). Les GLMM sont le meilleur outil pour analyser des données non normales qui impliquent des effets aléatoires: il suffit, en principe, de spécifier une distribution, une fonction de lien et une structure des effets aléatoires.
Page 129, encadré 1:
Les résidus indiquent une surdispersion , nous avons donc réaménagé les données avec un modèle quasi-Poisson. Malgré le paramètre à grande échelle estimé (10,8), les graphiques exploratoires n'ont trouvé aucune preuve de valeurs aberrantes au niveau des individus, des génotypes ou des populations. Nous avons utilisé le quasi-AIC (QAIC), en utilisant un degré de liberté pour les effets aléatoires [49], pour l'effet aléatoire et ensuite pour la sélection du modèle à effet fixe.
Page 133, encadré 4:
Nous décrivons ici un cadre général pour la construction d'un modèle complet (le plus complexe), la première étape de l'analyse GLMM. À la suite de ce processus, on peut ensuite évaluer les paramètres et comparer les sous-modèles comme décrit dans le texte principal et dans la figure 1.
Précisez les effets fixes (traitements ou covariables) et aléatoires (blocs expérimentaux, spatiaux ou temporels, individus, etc.). N'incluez que les interactions importantes. Restreindre le modèle a priori à un niveau de complexité réalisable, basé sur des règles empiriques (> 5 à 6 niveaux d'effet aléatoire par effet aléatoire et> 10 à 20 échantillons par niveau de traitement ou unité expérimentale) et la connaissance des tailles d'échantillon adéquates tirées de études antérieures [64,65].
Choisissez une distribution d'erreur et une fonction de lien (par exemple, distribution de Poisson et lien de journal pour les données de comptage, distribution binomiale et lien de logit pour les données de proportion).
Vérification graphique : les variances de données (transformées par la fonction de lien) sont-elles homogènes entre les catégories? Les réponses des données transformées sont-elles linéaires par rapport aux prédicteurs continus? Y a-t-il des individus ou des groupes aberrants? Les distributions au sein des groupes correspondent-elles à la distribution supposée?
Ajuster les GLM à effet fixe à la fois à l'ensemble de données (regroupé) et à l'intérieur de chaque niveau des facteurs aléatoires [28,50]. Les paramètres estimés doivent être répartis approximativement normalement entre les groupes (les paramètres au niveau du groupe peuvent avoir de grandes incertitudes, en particulier pour les groupes avec de petits échantillons). Ajustez le modèle si nécessaire (par exemple, changez la fonction de lien ou ajoutez des covariables).
Montez le GLMM complet. Mémoire d'ordinateur insuffisante ou trop lente: réduisez la complexité du modèle. Si l'estimation réussit sur un sous-ensemble des données, essayez un algorithme d'estimation plus efficace (par exemple PQL si approprié). Échec de la convergence (avertissements ou erreurs): réduisez la complexité du modèle ou modifiez les paramètres d'optimisation (assurez-vous que les réponses obtenues ont un sens). Essayez d'autres algorithmes d'estimation. Composantes à variance nulle ou singularité (avertissements ou erreurs): vérifier que le modèle est correctement défini et identifiable (c'est-à-dire que toutes les composantes peuvent théoriquement être estimées). Réduisez la complexité du modèle. L'ajout d'informations au modèle (covariables supplémentaires ou nouveaux regroupements d'effets aléatoires) peut atténuer les problèmes, tout comme le centrage de covariables continues en soustrayant leur moyenne [50]. Si nécessaire, éliminez les effets aléatoires du modèle complet, la suppression (i) de termes présentant un intérêt biologique moins intrinsèque, (ii) de termes avec de très petites variances estimées et / ou une grande incertitude, ou (iii) de termes d'interaction. (Des erreurs de convergence ou des écarts nuls pourraient indiquer des données insuffisantes.)
χ2
Les graphiques des résidus devraient être utilisés pour évaluer la surdispersion et les variances transformées devraient être homogènes d'une catégorie à l'autre. Nulle part dans l'article n'a été mentionné que les résidus sont censés être normalement distribués.
Je pense que la raison pour laquelle il y a des déclarations contrastées reflète que les GLMM (page 127-128) ...
... sont étonnamment difficiles à utiliser même pour les statisticiens. Bien que plusieurs progiciels puissent gérer les GLMM (tableau 1), peu d'écologistes et de biologistes évolutionnistes connaissent la gamme d'options ou les pièges possibles. En examinant les articles sur l'écologie et l'évolution depuis 2005 trouvés par Google Scholar, 311 des 537 analyses GLMM (58%) ont utilisé ces outils de manière inappropriée d'une manière ou d'une autre (voir la documentation supplémentaire en ligne).
Et voici quelques exemples complets d'utilisation de GLMM, y compris des diagnostics.
Je me rends compte que cette réponse ressemble plus à un commentaire et doit être traitée comme telle. Mais la section des commentaires ne me permet pas d'ajouter un commentaire aussi long. De plus, étant donné que je pense que cet article est utile pour cette discussion (mais malheureusement derrière un mur de paiement), j'ai pensé qu'il serait utile de citer ici des passages importants.
Documents cités:
[15] - GP Quinn, MJ Keough (2002): Conception expérimentale et analyse des données pour les biologistes, Cambridge University Press.
[16] - MJ Crawley (2002): Calcul statistique: introduction à l'analyse des données à l'aide de S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Modèles à effets mixtes en S et S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Information conditionnelle d'Akaike pour les modèles à effets mixtes. Biometrika, 92, p. 351–370.
[50] - A. Gelman, J. Hill (2006): Data Analysis Using Regression and Multilevel / Hierarchical Models, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Une introduction aux statistiques écologiques, Sinauer Associates.
[65] - FJ Harrell (2001): Stratégies de modélisation de la régression, Springer.
[66] - JK Lindsey (1997): Application de modèles linéaires généralisés, Springer.
[67] - W. Venables, BD Ripley (2002): Statistiques appliquées modernes avec S, Springer.
glm.diag.plots
dit que c'est pour la déviance résiduelle jackknifed (je soupçonne que la distinction est importante). Aussi, je suppose que vous avez des données de comptage ; vous voudrez peut-être vous concentrer sur ce fait. Par exemple, les dénombrements sont supposés (dans un certain sens) être hétéroscédastiques. Les tracés de diagnostic pour la régression du comptage devraient vous être utiles (bien qu'ils ne traitent pas de l'aspect des effets mixtes).