Le r carré de la population peut être défini en supposant des scores fixes ou des scores aléatoires:
Scores fixes: la taille de l'échantillon et les valeurs particulières des prédicteurs sont maintenues fixes. Ainsi, est la proportion de variance expliquée dans le résultat par l'équation de régression de la population lorsque les valeurs des prédicteurs sont maintenues constantes.
Scores aléatoires: les valeurs particulières des prédicteurs sont tirées d'une distribution. Ainsi, fait référence à la proportion de variance expliquée dans le résultat dans la population où les valeurs des prédicteurs correspondent à la distribution de la population des prédicteurs.
J'ai déjà demandé si cette distinction faisait une grande différence avec les estimations de . J'ai également posé des questions générales sur la façon de calculer une estimation non biaisée de .
Je peux voir qu'à mesure que la taille de l'échantillon augmente, la distinction entre score fixe et score aléatoire devient moins importante. Cependant, j'essaie de confirmer si le ajusté est conçu pour estimer le score fixe ou le score aléatoire ρ 2 .
Des questions
- Le ajusté est-il conçu pour estimer le score fixe ou le score aléatoire ρ 2 ?
- Existe-t-il une explication de principe de la façon dont la formule du r carré ajusté est liée à l'une ou l'autre forme de ?
Contexte de ma confusion
Quand je lis Yin et Fan (2001, p.206), ils écrivent:
L'une des hypothèses de base du modèle de régression multiple est que les valeurs des variables indépendantes sont des constantes connues et sont fixées par le chercheur avant l'expérience. Seule la variable dépendante peut librement varier d'un échantillon à l'autre. Ce modèle de régression est appelé modèle de régression linéaire fixe .
Cependant, en sciences sociales et comportementales, les valeurs des variables indépendantes sont rarement fixées par les chercheurs et sont également sujettes à des erreurs aléatoires. Par conséquent, un deuxième modèle de régression pour les applications a été suggéré, dans lequel les variables dépendantes et indépendantes peuvent varier (Binder, 1959; Park et Dudycha, 1974). Ce modèle est appelé modèle aléatoire (ou modèle de correction). Bien que les estimations du maximum de vraisemblance des coefficients de régression obtenus à partir des modèles aléatoires et fixes soient les mêmes dans les hypothèses de normalité, leurs distributions sont très différentes. Le modèle aléatoire est si complexe que davantage de recherches sont nécessaires avant de pouvoir être accepté à la place du modèle de régression linéaire fixe couramment utilisé. Par conséquent, le modèle fixe est généralement appliqué, même lorsque les hypothèses ne sont pas complètement remplies (Claudy, 1978). De telles applications du modèle de régression fixe avec des hypothèses violées entraîneraient un «surajustement», car l'erreur aléatoire introduite à partir des données de l'échantillon moins que parfait a tendance à être capitalisée dans le processus. Par conséquent, le coefficient de corrélation multiple de l'échantillon ainsi obtenu a tendance à surestimer la véritable corrélation multiple de la population (Claudy, 1978; Cohen et Cohen, 1983; Cummings, 1982).