Le carré R ajusté cherche-t-il à estimer le score fixe ou la population au score aléatoire r au carré?

Le r carré de la population peut être défini en supposant des scores fixes ou des scores aléatoires: $\rho^2$

Scores fixes: la taille de l'échantillon et les valeurs particulières des prédicteurs sont maintenues fixes. Ainsi, est la proportion de variance expliquée dans le résultat par l'équation de régression de la population lorsque les valeurs des prédicteurs sont maintenues constantes. $\rho^2_f$
Scores aléatoires: les valeurs particulières des prédicteurs sont tirées d'une distribution. Ainsi, fait référence à la proportion de variance expliquée dans le résultat dans la population où les valeurs des prédicteurs correspondent à la distribution de la population des prédicteurs. $\rho^2_r$

J'ai déjà demandé si cette distinction faisait une grande différence avec les estimations de $\rho^2$ . J'ai également posé des questions générales sur la façon de calculer une estimation non biaisée de $\rho^2$ .

Je peux voir qu'à mesure que la taille de l'échantillon augmente, la distinction entre score fixe et score aléatoire devient moins importante. Cependant, j'essaie de confirmer si le ajusté est conçu pour estimer le score fixe ou le score aléatoire . $R^2$ $\rho^2$

Des questions

Le ajusté est-il conçu pour estimer le score fixe ou le score aléatoire ? $R^2$ $\rho^2$
Existe-t-il une explication de principe de la façon dont la formule du r carré ajusté est liée à l'une ou l'autre forme de ? $\rho^2$

Contexte de ma confusion

Quand je lis Yin et Fan (2001, p.206), ils écrivent:

L'une des hypothèses de base du modèle de régression multiple est que les valeurs des variables indépendantes sont des constantes connues et sont fixées par le chercheur avant l'expérience. Seule la variable dépendante peut librement varier d'un échantillon à l'autre. Ce modèle de régression est appelé modèle de régression linéaire fixe .

Cependant, en sciences sociales et comportementales, les valeurs des variables indépendantes sont rarement fixées par les chercheurs et sont également sujettes à des erreurs aléatoires. Par conséquent, un deuxième modèle de régression pour les applications a été suggéré, dans lequel les variables dépendantes et indépendantes peuvent varier (Binder, 1959; Park et Dudycha, 1974). Ce modèle est appelé modèle aléatoire (ou modèle de correction). Bien que les estimations du maximum de vraisemblance des coefficients de régression obtenus à partir des modèles aléatoires et fixes soient les mêmes dans les hypothèses de normalité, leurs distributions sont très différentes. Le modèle aléatoire est si complexe que davantage de recherches sont nécessaires avant de pouvoir être accepté à la place du modèle de régression linéaire fixe couramment utilisé. Par conséquent, le modèle fixe est généralement appliqué, même lorsque les hypothèses ne sont pas complètement remplies (Claudy, 1978). De telles applications du modèle de régression fixe avec des hypothèses violées entraîneraient un «surajustement», car l'erreur aléatoire introduite à partir des données de l'échantillon moins que parfait a tendance à être capitalisée dans le processus. Par conséquent, le coefficient de corrélation multiple de l'échantillon ainsi obtenu a tendance à surestimer la véritable corrélation multiple de la population (Claudy, 1978; Cohen et Cohen, 1983; Cummings, 1982).

$R^2$

Références

$R^2$

regression estimation r-squared

— Jeromy Anglim
source

Raju et al (1997) notent que

Pedhazur (1982) et Mitchell et Klimoski (1986) ont soutenu que les résultats ne sont
relativement pas affectés par le modèle [x fixe ou x aléatoire] sélectionné lorsque les N sont au moins de taille modérée (environ 50).

$R^2$ $\rho^2$

Formules X fixes: Plusieurs formules sont mentionnées, dont la formule proposée par Ezekiel (1930) qui est standard dans la plupart des logiciels statistiques:

{\hat{ρ}}_{(E)}^{2} = 1 - \frac{N - 1}{N - p - 1} (1 - R^{2})

$\hat{\rho}_{(E)}^2 = 1 - \frac{N-1}{N-p-1}(1-R^2)$

$R^2$ $\rho^2$

Formules X aléatoires:

Olkin et Pratt (1958) ont proposé une formule

{\hat{ρ}}_{(O P)}^{2} = 1 - [\frac{N - 3}{N - p - 1}] (1 - R^{2}) F [1, 1; \frac{N - p + 1}{2}; (1 - R^{2})]

$\hat{ \rho}^2 _{(OP)} = 1 - \left[ {\frac{{N - 3}}{{N - p - 1}}} \right](1 - {R^2})F\left[ {1,1;\frac{{N - p + 1}}{2};(1 - {R^2})} \right]$

Raju et al (1997) expliquent comment diverses autres formules, telles que celles de Pratt et Herzberg "sont des approximations de la fonction hypergéométrique attendue". Par exemple, la formule de Pratt est

{\hat{ρ}}_{(P)}^{2} = 1 - \frac{(N - 3) (1 - R^{2})}{N - p - 1} [1 + \frac{2 (1 - R^{2})}{N - p - 2.3}]

${\hat \rho}^2_{(P)} = 1 - \frac{{(N - 3)(1 - {R^2})}}{{N - p - 1}}\left[ {1 + \frac{{2(1 - {R^2})}}{{N - p - 2.3}}} \right]$

$R^2_{adj}$ $R^2_{adj}$ $R^2_{adj}$ de .2910. Selon la citation initiale de Raju et al sur la distinction entre les formules x fixes et aléatoires étant les plus pertinentes pour les petits échantillons, le tableau de Leach et Hansen montre comment la différence entre la formule x fixe d'Ezekiel et la formule x aléatoire d'Olkin et Pratt est la plus importante dans de petits échantillons, en particulier ceux de moins de 50.

Références

Leach, LF et Henson, RK (2003). L'utilisation et l'impact des effets R2 ajustés dans les recherches de régression publiées. En réunion annuelle de la Southwest Educational Research Association, San Antonio, TX. PDF
Mitchell, TW et Klimoski, RJ (1986). Estimation de la validité de l'estimation de la validité croisée. Journal of Applied Psychology, 71 , 311-317.
Pedhazur, EJ (1982). Régression multiple dans la recherche comportementale (2e éd.) New York: Holt, Rinehart et Winston.
Raju, Nouvelle-Écosse, Bilgic, R., Edwards, JE et Fleer, PF (1997). Examen de la méthodologie: estimation de la validité et de la validité croisée de la population, et utilisation de poids égaux dans les prévisions. Mesure psychologique appliquée, 21 (4), 291-305.

— Jeromy Anglim
source