Interprétation géométrique du coefficient de corrélation multiple

Je m'intéresse à la signification géométrique de la corrélation multiple et du coefficient de détermination dans la régression , ou en notation vectorielle, $R$ $R^2$ $y_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i$

y = X β + ϵ

$\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon}$

Ici, la matrice de conception a lignes et colonnes, dont la première est , un vecteur de 1 qui correspond à l'interception . $\mathbf{X}$ $n$ $k$ $\mathbf{x}_1 = \mathbf{1}_n$ $\beta_1$

La géométrie est plus intéressante dans l' espace sujet $n$ dimensionnel que dans l' espace variable $k$ dimensionnel. Définissez la matrice du chapeau:

H = {X (X^{⊤} X)}^{- 1} X^{⊤}

$\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top$

Il s'agit d'une projection orthogonale sur l'espace de colonne de $\mathbf{X}$ , c'est-à-dire le plat passant par l'origine parcouru par les $k$ vecteurs représentant chaque variable $\mathbf{x}_i$ , dont le premier est $\mathbf{1}_n$ . Alors $\mathbf{H}$ projette le vecteur des réponses observées $\mathbf{y}$ sur son "ombre" sur le plat, le vecteur des valeurs ajustées $\mathbf{\hat{y}} = \mathbf{Hy}$ , et si nous regardez le long du chemin de la projection, nous voyons le vecteur des résidus $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ forme le troisième côté d'un triangle. Cela devrait nous fournir deux voies pour une interprétation géométrique de $R^2$ :

Le carré du coefficient de corrélation multiple, $R$ , qui est défini comme la corrélation entre $\mathbf{y}$ et $\mathbf{\hat{y}}$ . Cela apparaîtra géométriquement comme le cosinus d'un angle.
En termes de longueurs de vecteurs: par exemple $SS_\text{residual} = \sum_{i=1}^{n}e_i^2 = \|\mathbf{e}\|^2$ .

Je serais ravi de voir un bref compte rendu qui explique:

Les détails les plus fins pour (1) et (2),
Pourquoi (1) et (2) sont équivalents,
En bref, comment la compréhension géométrique nous permet de visualiser les propriétés de base de $R^2$ , par exemple pourquoi elle passe à 1 lorsque la variance du bruit passe à 0. (Après tout, si nous ne pouvons pas intuitivement à partir de notre visualisation, ce n'est rien de plus qu'un Belle photo.)

J'apprécie que c'est plus simple si les variables sont centrées en premier, ce qui supprime l'interception de la question. Cependant, dans la plupart des comptes de manuels qui introduisent une régression multiple, la matrice de conception est telle que je l'ai présentée. Bien sûr, c'est bien si une exposition plonge dans l'espace couvert par les variables centrées, mais pour avoir un aperçu de l'algèbre linéaire du manuel, il serait très utile de relier cela à ce qui se passe géométriquement dans la situation non concentrée. Une réponse vraiment perspicace pourrait expliquer ce qui se décompose exactement géométriquement lorsque le terme d'interception est supprimé - c'est-à-dire lorsque le vecteur $\mathbf{X}$ $\mathbf{1}_n$ est supprimé de l'ensemble de répartition. Je ne pense pas que ce dernier point puisse être traité en considérant uniquement les variables centrées.

— Silverfish
source

S'il y a un terme constant dans le modèle, alors se trouve dans l'espace de colonne de (tout comme , qui vous sera utile plus tard). Le ajusté est la projection orthogonale du observé $\mathbf{1_n}$ $\mathbf{X}$ $\bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}}$ sur le plat formé par cet espace de colonne. Cela signifiele vecteur des résidus est perpendiculaire au plat, et donc à . En considérant le produit scalaire, nous pouvons voir , donc les composants de $\mathbf{Y}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $\mathbf{1_n}$ $\sum_{i=1}^n e_i = 0$ $\mathbf{e}$ doit être égal à zéro. Puisque nous concluons que de sorte que les réponses ajustées et observées ai moyenne . $Y_i = \hat{Y_i} + e_i$ $\sum_{i=1}^n Y_i = \sum_{i=1}^n \hat{Y_i}$ $\bar{Y}$

Vectors in subject space of multiple regression

Les lignes en pointillés dans le diagramme représentent et , qui sont les centrées vecteurs pour les réponses observées et ajustées. Le cosinus de l'angle entre ces vecteurs seront donc la corrélation entre et , qui par définition est le coefficient de corrélation multiple . Le triangle ces vecteurs forment avec le vecteur des résidus est rectangle depuis se situe dans l'appartement , mais $\mathbf{Y} - \bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\theta$ $Y$ $\hat{Y}$ $R$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\mathbf{e}$ is orthogonal to it. Hence:

R = \cos (θ) = \frac{adj}{hyp} = \frac{‖ \hat{Y} - \bar{Y} 1_{n} ‖}{‖ Y - \bar{Y} 1_{n} ‖}

$R = \cos(\theta) = \frac{\text{adj}}{\text{hyp}} = \frac{\|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|}$

We could also apply Pythagoras to the triangle:

‖ Y - \bar{Y} 1_{n} ‖^{2} = ‖ Y - \hat{Y} ‖^{2} + ‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}

$\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2 = \|\mathbf{Y} - \mathbf{\hat{Y}}\|^2 + \|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2$

Which may be more familiar as:

\sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2} = \sum_{i = 1}^{n} (Y_{i} - {\hat{Y}}_{i})^{2} + \sum_{i = 1}^{n} ({\hat{Y}}_{i} - \bar{Y})^{2}

$\sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 + \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2$

Il s'agit de la décomposition des sommes des carrés, . $SS_{\text{total}} = SS_{\text{residual}} + SS_{\text{regression}}$

La définition standard du coefficient de détermination est la suivante:

R^{2} = 1 - \frac{S S_{residual}}{S S_{total}} = 1 - \frac{\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}} = 1 - \frac{‖ Y - \hat{Y} ‖^{2}}{‖ Y - \bar{Y} 1_{n} ‖^{2}}

$R^2 = 1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}} = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = 1 - \frac{\|\mathbf{Y} - \mathbf{\hat{Y}}\|^2}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2}$

When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the "proportion of variance explained" formulation,

R^{2} = \frac{S S_{regression}}{S S_{total}} = \frac{\sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}} = \frac{‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}}{‖ Y - \bar{Y} 1_{n} ‖^{2}}

$R^2 = \frac{SS_{\text{regression}}}{SS_{\text{total}}} = \frac{\sum_{i=1}^n (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = \frac{\|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2}$

There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives $R^2 = 1 - \sin^2(\theta)$ and with basic trigonometry we can simplify this to $\cos^2(\theta)$ . This is the link between $R^2$ and $R$ .

Note how vital it was for this analysis to have fitted an intercept term, so that $\mathbf{1_n}$ was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of $Y$ . In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; $R^2$ would not have had the frequently-quoted form $SS_{\text{reg}}/SS_{\text{total}}$ nor be the square of $R$ . In this situation, some software (including R) uses a different formula for $R^2$ altogether.

— Silverfish
source

+1 Very nice write-up and figure. I am surprised that it only has my single lonely upvote.

— amoeba says Reinstate Monica

+1. Note that the figure of your answer, with "column space X", Y, Ypred as vectors etc. is what is known in multivariate statistics as "(reduced) subject space representation" (see, with further links where I've used it).

— ttnphns