Parce que la droite de régression ajustée par les moindres carrés ordinaires passera nécessairement par la moyenne de vos données (c'est-à-dire, ) - au moins tant que vous ne supprimez pas l'ordonnée à l'origine - incertitude sur la valeur réelle de la pente n'a aucun effet sur la position verticale de la ligne à la moyenne de x ( par exemple, à y ˉ x ). Cela se traduit par moins d'incertitude verticale à ˉ x que vous ne vous éloignez de ˉ x . Si l'ordonnée à l'origine, où x = 0 est ˉ x(x¯,y¯)xy^x¯x¯x¯x=0x¯, cela minimisera votre incertitude sur la valeur réelle de . En termes mathématiques, cela se traduit par la plus petite valeur possible de l'erreur standard pour β 0 . β0β^0
Voici un exemple rapide dans R
:
set.seed(1) # this makes the example exactly reproducible
x0 = rnorm(20, mean=0, sd=1) # the mean of x varies from 0 to 10
x5 = rnorm(20, mean=5, sd=1)
x10 = rnorm(20, mean=10, sd=1)
y0 = 5 + 1*x0 + rnorm(20) # all data come from the same
y5 = 5 + 1*x5 + rnorm(20) # data generating process
y10 = 5 + 1*x10 + rnorm(20)
model0 = lm(y0~x0) # all models are fit the same way
model5 = lm(y5~x5)
model10 = lm(y10~x10)
Ce chiffre est un peu occupé, mais vous pouvez voir les données de plusieurs études différentes où la distribution de était plus proche ou plus éloignée de 0 . Les pentes diffèrent légèrement d'une étude à l'autre, mais sont largement similaires. (Avis ils vont tous à travers le X entouré d'un cercle que j'utilisé pour marquer ( ˉ x , ˉ y ) .) Néanmoins, l'incertitude quant à la valeur réelle de ces pentes provoque l'incertitude sur y pour étendre plus vous obtenez de ˉ x , ce qui signifie que le S E ( β 0 )x0(x¯,y¯)y^x¯SE(β^0)est très large pour les données qui ont été échantillonnées dans le voisinage de , et très étroite pour l'étude dans laquelle les données ont été échantillonnées près de x = 0 . x=10x=0
Modifier en réponse à un commentaire: Malheureusement, centrer vos données après que vous les avez ne vous aidera pas si vous voulez connaître la probable valeur à un certain x valeur x nouvelle . Au lieu de cela, vous devez centrer votre collecte de données sur le point qui vous intéresse en premier lieu. Pour mieux comprendre ces problèmes, il peut vous être utile de lire ma réponse ici: Intervalle de prédiction de régression linéaire . yxxnew