Que nous disent r, r au carré et l'écart type résiduel sur une relation linéaire?


13

Petit historique
Je travaille sur l'interprétation de l'analyse de régression mais je suis vraiment confus quant à la signification de r, r au carré et de l'écart-type résiduel. Je connais les définitions:

Caractérisations

r mesure la force et la direction d'une relation linéaire entre deux variables sur un nuage de points

Le R au carré est une mesure statistique de la proximité des données avec la droite de régression ajustée.

L'écart type résiduel est un terme statistique utilisé pour décrire l'écart type des points formés autour d'une fonction linéaire et est une estimation de la précision de la variable dépendante mesurée. ( Je ne sais pas quelles sont les unités, toute information sur les unités ici serait utile )

(sources: ici )

Question
Bien que je "comprenne" les caractérisations, je comprends comment ces termes parviennent à tirer une conclusion sur l'ensemble de données. Je vais insérer un petit exemple ici, cela peut peut - être servir de guide pour répondre à ma question ( ne hésitez pas à utiliser un exemple de votre propre!)

Exemple
Ce n'est pas une question de howework, mais je cherchai dans mon livre pour obtenir un exemple simple (l'ensemble de données actuel que j'analyse est trop complexe et trop volumineux pour être affiché ici)

Vingt parcelles de 10 x 4 mètres chacune ont été choisies au hasard dans un grand champ de maïs. Pour chaque parcelle, la densité des plantes (nombre de plantes dans la parcelle) et le poids moyen des épis (gm de grains par épi) ont été observés. Les résultats sont donnés dans le tableau suivant:
(source: Statistiques des sciences de la vie )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Je vais d'abord faire un nuage de points pour visualiser les données: Je peux donc calculer r, R 2 et l'écart type résiduel. d'abord le test de corrélation:
entrez la description de l'image ici

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

et deuxièmement un résumé de la ligne de régression:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Donc, sur la base de ce test: r = -0.9417954, R au carré: 0.887et erreur standard résiduelle: 8.619 que nous disent ces valeurs sur l'ensemble de données? (voir Question )


3
Il peut être utile de noter que ce que vous appelez des «définitions» ne sont que des caractérisations occasionnelles et, en tant que telles, peuvent être trompeuses, selon la façon dont elles sont interprétées et appliquées. Les définitions réelles sont quantitatives et précises.
whuber

Merci d'avoir souligné que moi, les sources que j'ai utilisées appelaient ces définitions, mais sans contexte "caractérisations" serait probablement mieux en effet, je vais changer ça!
KingBoomie

Pièces: Le R au carré est généralement expliqué comme la proportion de variance expliquée par les prédicteurs, donc proche de 1 est bon. Les unités de l'écart-type résiduel doivent être les unités de vos résidus, qui sont les unités de votre variable de réponse.
alistaire

Merci! @alistaire en fait cela a du sens hahah parce que nous comparons la valeur y des points d'origine avec les valeurs y des points prédits
KingBoomie

Vous devriez tracer les résidus par rapport aux prédits comme suggéré par David dans sa réponse.
HelloWorld

Réponses:


5

Ces statistiques peuvent vous dire s'il y a une composante linéaire dans la relation, mais pas beaucoup si la relation est strictement linéaire. Une relation avec une petite composante quadratique peut avoir un r ^ 2 de 0,99. Un graphique des résidus en fonction des prévisions peut être révélateur. Dans l'expérience de Galileo ici https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html la corrélation est très élevée mais la relation est clairement non linéaire.


5

Voici une deuxième tentative de réponse après avoir reçu des commentaires sur les problèmes avec ma première réponse.

r|r||r|

R2r2R2

rR2rrR2rR2

L'erreur standard résiduelle est l'écart type d'une distribution normale, centrée sur la droite de régression prédite, représentant la distribution des valeurs réellement observées. En d'autres termes, si nous devions mesurer uniquement la densité de la plante pour une nouvelle parcelle, nous pouvons prédire le poids de l'épi en utilisant les coefficients du modèle ajusté, c'est la moyenne de cette distribution. Le RSE est l'écart-type de cette distribution et donc une mesure sur la mesure dans laquelle nous nous attendons à ce que les poids des épis réellement observés s'écartent des valeurs prédites par le modèle. Un RSE de ~ 8 dans ce cas doit être comparé à l'écart-type de l'échantillon du poids de l'épi, mais plus le RSE est comparé à l'échantillon SD, plus le modèle est prédictif ou adéquat.


@whuber Il n'y a pour l'instant aucune autre réponse à cette question, j'ai donc décidé de réessayer. Au lieu de défaire l'ancienne réponse, avec tous ses bagages, j'ai décidé d'en écrire une nouvelle (à l'exception du paragraphe RSE que j'ai copié). Si vous avez le temps, je serais vraiment reconnaissant pour tout commentaire sur cette deuxième tentative. Mon approche habituelle pour l'évaluation des modèles est la validation croisée et les ensembles de retenue, car le but est généralement la prédiction, mais j'aimerais vraiment comprendre ces métriques ainsi qu'elles sont assez courantes.
Johan Falkenjack

2
|r|rρ
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.