Je vais différencier les analyses à l'aide d'erreurs standard basées sur un modèle par rapport à des erreurs standard robustes en désignant ces dernières comme des «GEE», ce qui est en fait une définition échangeable. En plus de l'explication fantastique de Scortchi:
Les GEE peuvent être «biaisés» dans de petits échantillons, c'est-à-dire 10 à 50 sujets: (Lipsitz, Laird et Harrington, 1990; Emrich et Piedmonte, 1992; Sharples et Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte, et Williams, 1994; Gunsolley, Getchell et Chinchilli, 1995; Sherman et le Cessie, 1997.) Quand je dis que les GEE sont biaisés, je veux dire que l'estimation de l'erreur-type peut être soit conservatrice soit anticonservatrice en raison d'un nombre de cellules faible ou nul , en fonction des valeurs ajustées qui présentent ce comportement et de leur cohérence avec la tendance générale du modèle de régression.
En général, lorsque le modèle paramétrique est correctement spécifié, vous obtenez toujours des estimations d'erreur standard correctes à partir des CI basés sur le modèle, mais le but de l'utilisation de GEE est de tenir compte de ce très gros "si". Les GEE permettent au statisticien de simplement spécifier un modèle de probabilité de travail pour les données, et les paramètres (au lieu d'être interprétés dans le cadre strictement paramétrique) sont considérés comme un type de "tamis" qui peut générer des valeurs reproductibles indépendamment des données sous-jacentes et inconnues générant mécanisme. C'est le cœur et l'âme de l'analyse semi-paramétrique, dont un GEE est un exemple.
Les GEE gèrent également des sources de covariation non mesurées dans les données, même avec la spécification d'une matrice de corrélation indépendante. Cela est dû à l'utilisation d'une matrice de covariance empirique plutôt que basée sur un modèle. Dans la modélisation de Poisson, par exemple, vous pourriez être intéressé par les taux de fertilité des saumons prélevés dans divers cours d'eau. Les ovules récoltés sur les poissons femelles pourraient avoir une distribution sous-jacente de Poisson, mais la variation génétique qui comprend une hérétibilité partagée et des ressources disponibles dans des cours d'eau spécifiques pourrait rendre les poissons dans ces cours d'eau plus similaires que dans d'autres cours d'eau. L'EGE fournira des estimations d'erreur standard de population correctes tant que le taux d'échantillonnage est cohérent avec leur proportion de population (ou est stratifié d'une autre manière).