Pour calculer les prévisions moyennes du modèle sur l'échelle de réponse d'un GLM, qui est "correct" et pourquoi?
- Calculez la prédiction moyenne du modèle sur l'échelle de liaison, puis retransformez-la en échelle de réponse, ou
- Transformez les prédictions à l'échelle de réponse, puis calculez la moyenne du modèle
Les prédictions sont proches mais pas égales si le modèle est un GLM. Les différents packages R offrent des options pour les deux (avec des valeurs par défaut différentes). Plusieurs collègues ont soutenu avec véhémence que le n ° 1 est faux parce que "tout le monde fait le n ° 2". Mon intuition dit que # 1 est "correct" car il maintient toutes les mathématiques linéaires linéaires (# 2 fait la moyenne des choses qui ne sont pas sur une échelle linéaire). Une simulation simple montre que # 2 a un MSE très (très!) Légèrement plus petit que # 1. Si # 2 est correct, quelle en est la raison? Et, si # 2 est correct, pourquoi ma raison (garder les mathématiques linéaires linéaires) est-elle un mauvais raisonnement?
Edit 1: Le calcul des moyennes marginales sur les niveaux d'un autre facteur dans un GLM est un problème similaire à la question que je pose ci-dessus. Russell Lenth calcule les moyennes marginales des modèles GLM en utilisant le "timing" (ses mots) de # 1 (dans le paquet emmeans) et son argument est similaire à mon intuition.
Edit 2: J'utilise la moyenne du modèle pour faire référence à l'alternative à la sélection du modèle où une prédiction (ou un coefficient) est estimée comme la moyenne pondérée sur tous ou un sous-ensemble des «meilleurs» modèles imbriqués (voir références et packages R ci-dessous) .
Étant donné modèles imbriqués, où est la prédiction linéaire (dans l'espace de lien) pour l'individu pour le modèle , et est le poids pour le modèle , la prédiction moyenne du modèle utilisant # 1 ci-dessus (moyenne sur le lien échelle, puis retransformer à l'échelle de réponse) est:η m i i m w m m
et la prédiction moyennée par le modèle en utilisant # 2 ci-dessus (retransforme toutes les prédictions et ensuite la moyenne sur l'échelle de réponse) est:
Certaines méthodes bayésiennes et fréquentistes de calcul de moyenne de modèle sont les suivantes:
Hoeting, JA, Madigan, D., Raftery, AE et Volinsky, CT, 1999. Moyenne du modèle bayésien: un tutoriel. Science statistique, pp.382-401.
Burnham, KP et Anderson, DR, 2003. Sélection du modèle et inférence multimodèle: une approche théorique pratique de l'information. Springer Science & Business Media.
Hansen, BE, 2007. Moyenne des moindres carrés. Econometrica, 75 (4), pp.1175-1189.
Claeskens, G. et Hjort, NL, 2008. Sélection du modèle et moyenne du modèle. Cambridge Books.
Les packages R incluent BMA , MuMIn , BAS et AICcmodavg . (Remarque: ce n'est pas une question sur la sagesse de la moyenne du modèle plus généralement.)