Erreurs standard groupées vs modélisation multiniveaux?

J'ai parcouru plusieurs livres (Raudenbush & Bryk, Snijders & Bosker, Gelman & Hill, etc.) et plusieurs articles (Gelman, Jusko, Primo & Jacobsmeier, etc.), et je n'ai toujours pas vraiment fait le tour de ma tête les principales différences entre l'utilisation d'erreurs standard groupées et la modélisation à plusieurs niveaux.

Je comprends les parties qui ont à voir avec la question de recherche à portée de main; il existe certains types de réponses que vous ne pouvez obtenir qu'à partir de la modélisation à plusieurs niveaux. Cependant, par exemple, pour un modèle à deux niveaux où vos coefficients d'intérêt ne sont qu'au deuxième niveau, quel est l'avantage de faire une méthode par rapport à l'autre? Dans ce cas, je ne suis pas inquiet de faire des prédictions ou d'extraire des coefficients individuels pour les clusters.

La principale différence que j'ai pu trouver est que les erreurs standard groupées souffrent lorsque les clusters ont des tailles d'échantillon inégales et que la modélisation à plusieurs niveaux est faible en ce qu'elle suppose une spécification de la distribution aléatoire des coefficients (alors que l'utilisation des erreurs standard groupées est sans modèle) .

Et en fin de compte, tout cela signifie-t-il que pour les modèles qui pourraient ostensiblement utiliser l'une ou l'autre méthode, nous devrions obtenir des résultats similaires en termes de coefficients et d'erreurs standard?

Toute réponse ou ressource utile serait grandement appréciée.

mixed-model multilevel-analysis clustered-standard-errors

— RickyB
source

L'utilisateur Stask a une bonne réponse à cette question .

— Andy W

Merci. Je l'ai déjà lu auparavant, ce qui m'a rendu plus sceptique quant aux avantages réels. Cependant, je suppose que la véritable motivation derrière ma question est de voir si je suis du tout validé en pensant que ce n'est pas trop utile si je ne considère que les coefficients de niveau deux comme étant intéressants. De plus, je l'ai peut-être manqué, mais je ne pense pas que cet article ait examiné si ces deux méthodes devraient produire des résultats similaires (lorsque les hypothèses des deux méthodes sont remplies).

— RickyB

Par «coefficients au deuxième niveau», vous entendez le niveau où vous les paramètres du premier étage en tant que variables dépendantes?

— sheß

Oui, c'est ce que je veux dire.

— RickyB

Ce message se base sur des expériences personnelles qui pourraient être spécifiques à mes données, donc je ne suis pas sûr qu'il puisse être considéré comme une réponse.

Je suggère d'utiliser des simulations si possible pour évaluer la méthode qui convient le mieux à vos données. Je l'ai fait et j'ai été surpris de constater que les tests (concernant les paramètres du premier niveau) basés sur la modélisation à plusieurs niveaux surpassaient toute autre méthode (en termes de puissance), tout en conservant la taille même dans de petits échantillons avec peu de "grappes" de taille inégale. Je n'ai pas encore trouvé un article qui fasse ce point, et d'après ce que je vois, ce n'est pas vraiment un sujet de niche et mérite plus d'attention. Je pense qu'il est assez sous-étudié comment les différentes méthodes comparent vis-à-vis des échantillons finis ou des grappes peu nombreuses ou inégales.

— sheß
source

Merci pour votre commentaire. Avez-vous un document sur lequel vous avez enregistré vos résultats? Je serais très intéressé à le regarder et à voir ce que vous avez trouvé (et, bien sûr, je ne voudrais pas le citer, le partager ou l'améliorer sans en discuter avec vous).

— RickyB