Je comprends que cela signifie que le modèle est mauvais pour prédire des points de données individuels, mais a établi une tendance ferme (par exemple, y augmente lorsque x augmente).
Je comprends que cela signifie que le modèle est mauvais pour prédire des points de données individuels, mais a établi une tendance ferme (par exemple, y augmente lorsque x augmente).
Réponses:
Cela signifie que vous pouvez expliquer une petite partie de la variance des données. Par exemple, vous pouvez établir qu'un diplôme universitaire a un impact sur les salaires, mais en même temps, ce n'est qu'un petit facteur. Il existe de nombreux autres facteurs qui influent sur votre salaire, et la contribution du diplôme universitaire est très faible, mais détectable.
Concrètement, cela pourrait signifier qu'en moyenne, le diplôme universitaire augmente le salaire de 500 $ par an, tandis que l'écart-type des salaires des personnes est de 10 000 $ . Ainsi, de nombreuses personnes diplômées d'université ont des salaires inférieurs à ceux des non-diplômés, et la valeur de votre modèle de prévision est faible.
Cela signifie que "l'erreur irréductible est élevée", c'est-à-dire que la meilleure chose que nous pouvons faire (avec un modèle linéaire) est limitée. Par exemple, l'ensemble de données suivant:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
Remarque, l'astuce dans cet ensemble de données est que, étant donné une valeur , il y a trop de valeurs y différentes , que nous ne pouvons pas faire une bonne prédiction pour les satisfaire toutes. Dans le même temps, il existe des corrélations linéaires "fortes" entre x et y . Si nous ajustons un modèle linéaire, nous obtiendrons des coefficients significatifs, mais un faible R au carré.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
Qu'est-ce que cela signifie qu'une régression linéaire soit statistiquement significative mais a un très faible r au carré?
Cela signifie qu'il existe une relation linéaire entre la variable indépendante et la variable dépendante, mais que cette relation ne vaut peut-être pas la peine d'être discutée.
Cependant, la signification de la relation dépend beaucoup de ce que vous examinez, mais en général, vous pouvez considérer que la signification statistique ne doit pas être confondue avec la pertinence.
Avec un échantillon suffisamment grand, même les relations les plus triviales peuvent être jugées statistiquement significatives.
Une autre façon de formuler cela est que cela signifie que vous pouvez prédire en toute confiance un changement au niveau de la population mais pas au niveau individuel. c'est-à-dire qu'il y a une grande variance dans les données individuelles, mais quand un échantillon suffisamment grand est utilisé, un effet sous-jacent peut être observé dans l'ensemble. C'est une des raisons pour lesquelles certains conseils de santé du gouvernement ne sont d'aucune utilité pour l'individu. Les gouvernements ressentent parfois le besoin d'agir parce qu'ils peuvent voir qu'une plus grande partie de l'activité mène à plus de décès dans la population. Ils produisent des conseils ou une politique qui «sauve» ces vies. Cependant, en raison de la forte variance des réponses individuelles, il est très peu probable qu'un individu en voie personnellement un quelconque avantage (ou, pire, en raison de conditions génétiques spécifiques, sa propre santé se serait en fait améliorée en obéissant aux conseils opposés, mais cela est caché dans l'agrégation de la population). Si l'individu tire profit (par exemple le plaisir) de l'activité `` malsaine '', suivre les conseils peut signifier qu'il renonce à ce plaisir défini tout au long de sa vie, mais ne change pas réellement personnellement s'il aurait ou non souffert de la maladie.