Comment choisir entre les différentes formules

Je pense aux formules ajustées au R proposées par:

Ezekiel (1930), qui je crois est celui actuellement utilisé dans SPSS.

$R_{une ré j u s t e ré}^{2} = 1 - \frac{(N - 1)}{(N - p - 1)} (1 - R^{2})$ $R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2)$
Olkin et Pratt (1958)

$R_{u n b i a s e d}^{2} = 1 - \frac{(N - 3) (1 - R^{2})}{(N - p - 1)} - \frac{2 (N - 3) (1 - R^{2})^{2}}{(N - p - 1) (N - p + 1)}$ $R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)}$

Dans quelles circonstances (le cas échéant) devrais-je préférer «ajusté» à «impartial» ? $R^2$

Les références

Ezekiel, M. (1930). Méthodes d'analyse de corrélation . John Wiley and Sons, New York.
Olkin I., Pratt JW (1958). Estimation impartiale de certains coefficients de corrélation. Annals of Mathematical Statistics , 29 (1), 201-211.

regression r-squared

— user1205901 - Réintégrer Monica
source

Réponses:

Sans vouloir prendre le crédit de la réponse de @ttnphns, je voulais retirer la réponse des commentaires (en particulier compte tenu du fait que le lien vers l'article était mort). La réponse de Matt Krause fournit une discussion utile sur la distinction entre et mais elle ne discute pas la décision de la formule à utiliser dans un cas donné. $R^2$ $R^2_{adj}$ $R^2_{adj}$

Comme je l'explique dans cette réponse , Yin et Fan (2001) donnent un bon aperçu des nombreuses formules différentes d'estimation de la variance de la population expliquées , qui pourraient toutes être qualifiées de type de ajusté . $\rho^2$ $R^2$

Ils effectuent une simulation pour évaluer laquelle parmi une large gamme de formules ajustées du carré r fournit la meilleure estimation non biaisée pour différentes tailles d'échantillon, et les intercorrélations des prédicteurs. Ils suggèrent que la formule Pratt peut être une bonne option, mais je ne pense pas que l'étude était définitive sur la question. $\rho^2$

Mise à jour: Raju et al (1997) notent que les formules de ajustées diffèrent selon qu'elles sont conçues pour estimer le ajusté en supposant des prédicteurs x fixe ou x aléatoire. Plus précisément, la formule Ezekial est conçue pour estimer dans le contexte x fixe, et les formules Olkin-Pratt et Pratt sont conçues pour estimer dans le contexte x aléatoire. Il n'y a pas beaucoup de différence entre les formules Olkin-Pratt et Pratt. Les hypothèses x fixes s'alignent sur les expériences planifiées, les hypothèses x aléatoires s'alignent lorsque vous supposez que les valeurs des variables prédictives sont un échantillon de valeurs possibles, comme c'est généralement le cas dans les études d'observation. Voir $R^2$ $R^2$ $\rho^2$ $\rho^2$ cette réponse pour une discussion plus approfondie . Il n'y a pas non plus beaucoup de différence entre les deux types de formules car la taille des échantillons devient modérément grande (voir ici pour une discussion sur la taille de la différence ).

Résumé des règles générales

Si vous supposez que vos observations pour les variables prédictives sont un échantillon aléatoire d'une population et que vous souhaitez estimer pour la population complète des prédicteurs et du critère (c.-à-d. L'hypothèse aléatoire x), utilisez la formule Olkin-Pratt (ou la formule de Pratt). $\rho^2$
Si vous supposez que vos observations sont fixes ou que vous ne voulez pas généraliser au-delà de vos niveaux observés du prédicteur, alors estimez avec la formule d'Ezéchiel. $\rho^2$
Si vous souhaitez en savoir plus sur la prédiction hors échantillon à l'aide de l'équation de régression de l'échantillon, vous voudrez peut-être examiner une forme de procédure de validation croisée.

Les références

Raju, Nouvelle-Écosse, Bilgic, R., Edwards, JE et Fleer, PF (1997). Examen de la méthodologie: estimation de la validité et de la validité croisée de la population, et utilisation de poids égaux dans les prévisions. Mesure psychologique appliquée, 21 (4), 291-305.
Yin, P. et Fan, X. (2001). Estimation du retrait en régression multiple: une comparaison des différentes méthodes analytiques. The Journal of Experimental Education, 69 (2), 203-224. PDF $R^2$

— Jeromy Anglim
source

Le choix de ou ajusté dépend de ce que vous essayez de faire. Dans un contexte de régression, le régulier est utilisé comme mesure de la qualité de l'ajustement pour votre modèle. Cependant, imaginez que vous comparez plusieurs modèles qui ont différents nombres de paramètres. Toutes choses étant égales par ailleurs, le modèle avec plus de paramètres correspondra mieux à votre observation. Dans la limite, vous pourriez avoir un modèle avec des paramètres pour chaque point de données mais un; cela vous donnerait un ajustement parfait sur vos observations, mais serait inutile pour de nouvelles prédictions car il capturerait à la fois le «signal» sous-jacent ET tout bruit associé. Le ajusté est une tentative de résoudre ce problème en ajustant le $R^2$ $R^2$ $R^2$ $R^2$ valeur en fonction du nombre de paramètres dans le modèle. $R^2$

Ils ont donc des finalités légèrement différentes. décrit dans quelle mesure différents ensembles de données correspondent à un modèle. Vous pourriez écrire quelque chose comme "Le modèle décrit ci-dessus prédit avec précision les performances de la partie A ( = 0,9), mais pas le widget B ( = 0,05) dans des conditions de test standard." Le ajusté décrit dans quelle mesure différents modèles correspondent aux mêmes données (ou données similaires). Par exemple, «Les résultats des questionnaires court et long ont également prédit les dépenses annuelles des clients ( ajusté = 0,8 pour les deux)». $R^2$ $r^2$ $r^2$ $R^2$ $R^2$

— Matt Krause
source

Merci, j'ai trouvé que c'était une explication très claire de la différence entre le R au carré et le R au carré ajusté. À votre avis, comment le R-carré impartial s'intègre-t-il dans cette image?

— user1205901

Il existe en effet différentes formules pour estimer la population R ^ 2. Voir par exemple studyforquals.pbworks.com/f/yin.pdf . On dit que le «R ^ 2 ajusté» de Fisher (= Wherry) est légèrement biaisé négativement (il dépend toujours de la taille de l'échantillon sans dépendre du nombre de prédicteurs), donc la version Olkin-Pratt est probablement un peu meilleure.

— ttnphns

@ttnphns, cela devrait peut-être être une réponse plutôt qu'un commentaire. Pour moi, cela semble répondre à la question d'origine plus qu'à cette réponse.

— gung - Réintégrer Monica

R^{2}

$R^2$

R^{2}

$R^2$

@ttnphns, je suis d'accord avec Gung! Vous devez rédiger une réponse et prendre un certain crédit. Pouvez-vous également confirmer ce que j'ai écrit? JStor agit étrangement aujourd'hui et ne me laisse pas lire le document original d'Olkin et Pratt.

— Matt Krause