relation entre

10

Une question très basique concernant les régressions $R^2$ des OLS

exécuter la régression OLS y ~ x1, nous avons un $R^2$ , disons 0,3
exécuter la régression OLS y ~ x2, nous avons un autre $R^2$ , disons 0,4
maintenant nous exécutons une régression y ~ x1 + x2, quelle valeur le R de cette régression peut-il être?

Je pense qu'il est clair que le $R^2$ pour la régression multiple ne devrait pas être inférieur à 0,4, mais est-il possible qu'il soit supérieur à 0,7?

— Olivier Ma
source

2

Astuce: il pourrait atteindre 1,0. Pourquoi? (Pensez géométriquement. Ou, même spécifiquement, au cercle unitaire.)

— Cardinal

stats.stackexchange.com/questions/351200/…

— StubbornAtom

4

Le second régresseur peut simplement compenser ce que le premier n'a pas réussi à expliquer dans la variable dépendante. Voici un exemple numérique:

x1 $y_i=0.5x_{1i}+u_i$ $u_i$ $N(0,1)$ x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared

— Christoph Hanck
source

Merci! J'avais une mauvaise compréhension de r au carré. Je pensais que si x1 + x2 = yalors summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squaredne devrait pas être inférieur à 1. mais il est clair que je me trompe ..

— Olivier Ma

3

$R^2$

Il y a un concept qui est critique à cet égard et c'est la corrélation entre les prédicteurs. Si la corrélation est importante, la nouvelle variable non seulement n'apportera rien au modèle mais compliquera également l'inférence pour vos variables existantes, car les estimations deviendront imprécises (multicolinéarité). C'est la raison pour laquelle nous préférerions idéalement que la nouvelle variable soit orthogonale aux autres. Les chances sont minces que cela se produise dans les études d'observation, mais cela peut être accompli dans des contextes contrôlés, par exemple lorsque vous construisez votre propre expérience.

$R^2$

Ainsi, comme @cardinal l'a souligné dans les commentaires, votre nouveau coefficient de détermination pourrait être aussi élevé que 1. Il pourrait également être aussi bas que 0,400001. Il n'y a aucun moyen de le savoir sans informations supplémentaires.

— JohnK
source

@JohnK, pourriez-vous expliquer plus en détail pourquoi doit-il être STRICTEMENT supérieur à 0,4? L'interprétation géométrique de la régression serait-elle utile ici?

— Dnaiel

@Dnaiel Le coefficient de détermination n'est pas décroissant par rapport au nombre de variables dans le modèle.

— JohnK

3

Coefficient de détermination en régression linéaire multiple: Dans la régression linéaire multiple, le coefficient de détermination peut être écrit en termes de corrélations par paires pour les variables en utilisant la forme quadratique:

R^{2} = r_{y, x}^{T} r_{x, x}^{- 1} r_{y, x},

$R^2 = \boldsymbol{r}_{\mathbf{y},\mathbf{x}}^\text{T} \boldsymbol{r}_{\mathbf{x},\mathbf{x}}^{-1} \boldsymbol{r}_{\mathbf{y},\mathbf{x}},$

où est le vecteur de corrélations entre le vecteur de réponse et chacun des vecteurs explicatifs, et est la matrice de corrélations entre les vecteurs explicatifs (pour en savoir plus, voir cette question connexe ). Dans le cas d'une régression bivariée, vous avez: $\boldsymbol{r}_{\mathbf{y},\mathbf{x}}$ $\boldsymbol{r}_{\mathbf{x},\mathbf{x}}$

\begin{aligned} R^{2} & = {[\begin{matrix} r_{Y, X_{1}} \\ r_{Y, X_{2}} \end{matrix}]}^{T} {[\begin{matrix} 1 & r_{X_{1}, X_{2}} \\ r_{X_{1}, X_{2}} & 1 \end{matrix}]}^{- 1} [\begin{matrix} r_{Y, X_{1}} \\ r_{Y, X_{2}} \end{matrix}] \\ = \frac{1}{1 - r_{X_{1}, X_{2}}^{2}} {[\begin{matrix} r_{Y, X_{1}} \\ r_{Y, X_{2}} \end{matrix}]}^{T} [\begin{matrix} 1 & - r_{X_{1}, X_{2}} \\ - r_{X_{1}, X_{2}} & 1 \end{matrix}] [\begin{matrix} r_{Y, X_{1}} \\ r_{Y, X_{2}} \end{matrix}] \\ = \frac{1}{1 - r_{X_{1}, X_{2}}^{2}} (r_{Y, X_{1}}^{2} + r_{Y, X_{2}}^{2} - 2 r_{X_{1}, X_{2}} r_{Y, X_{1}} r_{Y, X_{2}}) . \end{aligned}

$\begin{equation} \begin{aligned} R^2 &= \begin{bmatrix} r_{Y,X_1} \\[6pt] r_{Y,X_2} \\[6pt] \end{bmatrix}^\text{T} \begin{bmatrix} 1 & r_{X_1,X_2} \\[6pt] r_{X_1,X_2} & 1 \\[6pt] \end{bmatrix}^{-1} \begin{bmatrix} r_{Y,X_1} \\[6pt] r_{Y,X_2} \\[6pt] \end{bmatrix} \\[6pt] &= \frac{1}{1-r_{X_1,X_2}^2} \begin{bmatrix} r_{Y,X_1} \\[6pt] r_{Y,X_2} \\[6pt] \end{bmatrix}^\text{T} \begin{bmatrix} 1 & -r_{X_1,X_2} \\[6pt] -r_{X_1,X_2} & 1 \\[6pt] \end{bmatrix} \begin{bmatrix} r_{Y,X_1} \\[6pt] r_{Y,X_2} \\[6pt] \end{bmatrix} \\[6pt] &= \frac{1}{1-r_{X_1,X_2}^2} ( r_{Y,X_1}^2 + r_{Y,X_2}^2 - 2 r_{X_1,X_2} r_{Y,X_1} r_{Y,X_2} ). \end{aligned} \end{equation}$

Vous n'avez pas spécifié les directions des corrélations univariées dans votre question, donc sans perte de généralité, nous noterons . La substitution de vos valeurs et donne: $D \equiv \text{sgn} (r_{Y,X_1}) \cdot \text{sgn} (r_{Y,X_2}) \in \{ -1, +1 \}$ $r_{Y,X_1}^2 = 0.3$ $r_{Y,X_2}^2 = 0.4$

R^{2} = \frac{0.7 - 2 \sqrt{0.12} \cdot D \cdot r_{X_{1}, X_{2}}}{1 - r_{X_{1}, X_{2}}^{2}} .

$R^2 = \frac{0.7 - 2 \sqrt{0.12} \cdot D \cdot r_{X_1,X_2}}{1-r_{X_1,X_2}^2}.$

Il est possible que , car il est possible que les informations combinées des deux variables soient supérieures à la somme de ses parties. Ce phénomène intéressant est appelé «amélioration» (voir par exemple Lewis et Escobar 1986 ). $R^2 > 0.7$

— Ben - Réintègre Monica
source