Régression: Quelle est l'utilité de R au carré par rapport à RMSE?


11

Supposons que je fasse une régression avec des ensembles de formation, de validation et de test. Je peux trouver RMSE et R au carré (R ^ 2, le coefficient de détermination) à la sortie de mon logiciel (comme la fonction lm () de R).

Ma compréhension est que le test RMSE (ou MSE) est la mesure de la qualité de prédire les valeurs de validation / test, tandis que R ^ 2 est une mesure de la qualité de l'ajustement pour capturer la variance dans l'ensemble d'apprentissage.

Dans le monde réel, ce qui m'importe vraiment, c'est la précision de prédiction généralisée sur des données que je n'ai pas vues. Alors, quelle est l'utilité de la valeur R ^ 2 par rapport à RMSE?

Réponses:


7

Le non ajusté est défini comme étant R2

R2=11ni=1n(yiy^i)21ni=1n(yiy¯)2=1MSE1nTotSS

Prenons le RMSE comme

RMSE=MSE.

Pour un ensemble de données donné, et sont fixes, de sorte que différents modèles ne sont pris en compte que le changement de . Cela signifie que dans les expressions ci-dessus, seul le MSE change. Donc, et sont des fonctions de la même chose, et donc il n'y a pas beaucoup de différence (sauf pour l'interprétation) en considérant l'un par rapport à l'autre.yiy¯y^iR2RMSE

Si nous regardons plutôt le ajusté ou utilisons nous aurons également , la dimension du modèle, changeant pour différents modèles.R2RMSE=nnpMSEp


7

Chaconne a fait un excellent travail pour définir les formules de mesures et comment elles sont très étroitement liées d'un point de vue mathématique. Si vous comparez ou classez des modèles en utilisant le même ensemble de données, ces deux mesures sont interchangeables, ce qui signifie que vous obtiendrez exactement le même classement de vos modèles, que vous utilisiez R Square (les classant de haut en bas) ou le RMSE (classant de bas en haut) .

Cependant, les deux mesures ont une signification et une utilisation très différentes. R Square n'est pas seulement une mesure de la qualité de l'ajustement, c'est aussi une mesure de la façon dont le modèle (l'ensemble de variables indépendantes que vous avez sélectionné) explique le comportement (ou la variance) de votre variable dépendante. Donc, si votre modèle a un carré R de 0,60, il explique 60% du comportement de votre variable dépendante. Maintenant, si vous utilisez le carré R ajusté qui pénalise essentiellement le carré R pour le nombre de variables que vous utilisez, vous obtenez une assez bonne idée quand vous devez arrêter d'ajouter des variables à votre modèle (et finalement obtenir simplement un modèle qui est trop adapté). Si votre carré R ajusté est de 0,60. Et, lorsque vous ajoutez une variable supplémentaire, elle augmente simplement à 0,61. Cela ne vaut probablement pas la peine d'ajouter cette variable supplémentaire.

Désormais, le passage à RMSE est aussi communément appelé erreur standard. Son utilisation est complètement différente de celle de R Square. L'erreur standard vous permet de construire des intervalles de confiance autour de votre estimation de régression en supposant le niveau de confiance qui vous intéresse (généralement 99%, 95% ou 90%). En effet, l'erreur standard est l'équivalent d'une valeur Z. Donc, si vous souhaitez créer un IC à 95% autour de votre ligne de tendance de régression, vous multipliez l'erreur standard par 1,96 et générez rapidement une estimation haute et basse comme bordure de votre IC à 95% autour de la ligne de régression.

Ainsi, le carré R (et le carré R ajusté) et l'erreur standard sont extrêmement utiles pour évaluer la robustesse statistique d'un modèle. Et, comme indiqué, ils ont une application pratique complètement différente. On mesure le pouvoir explicatif du modèle. L'autre vous permet de créer des intervalles de confiance. Les deux, des trucs très utiles mais différents.

En ce qui concerne l'évaluation de l'exactitude des prévisions sur des données que vous n'avez pas vues, les deux mesures ont leurs limites ainsi que la plupart des autres mesures auxquelles vous pouvez penser. Sur les nouvelles données hors échantillon, le carré R et l'erreur standard sur l'historique ou l'échantillon d'apprentissage du modèle ne seront pas très utiles. Le contenu hors échantillon n'est qu'un excellent test pour vérifier si votre modèle est surajusté (grand carré R et faible erreur standard, mais mauvaise performance en dehors de l'échantillon) ou non. Je comprends que de meilleures mesures pour les données prospectives (données que vous n'avez pas encore vues) sont le critère d'information, y compris AIC, BIC, SIC. Et le modèle avec les meilleures valeurs de critère d'information devrait mieux gérer les données invisibles, en d'autres termes être plus prédictif. Ces mesures sont étroitement apparentées au concept du carré ajusté R. cependant,


1
Merci pour votre réponse. J'ai généralement utilisé RMSE uniquement pour évaluer le pouvoir prédictif d'un modèle de régression linéaire (après avoir prédit les valeurs d'un ensemble de test invisible). Je n'ai donc pas vu que RMSE "a une utilisation complètement différente ... pour construire des intervalles de confiance autour de votre estimation de régression." Je suppose que cela doit être une chose statisticienne? Je viens de l'informatique, donc je n'ai pas calculé beaucoup d'intervalles de confiance dans ma carrière.
stackoverflowuser2010
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.