Non. Les résidus sont les valeurs conditionnelles à (moins la moyenne prévue de à chaque point de ). Vous pouvez modifier comme vous le souhaitez ( , , ) et les valeurs qui correspondent aux valeurs à un point donné de ne changeront pas. Ainsi, la distribution conditionnelle de (c'est-à-dire ) sera la même. Autrement dit, ce sera normal ou non, comme auparavant. (Pour mieux comprendre ce sujet, il peut vous être utile de lire ma réponse ici:X Y X X X + 10 X - 1 / 5 X / π Y X X Y Y | XOuiXOuiXXX+ 10X- 1 / cinqX/ πOuiXXYY|XEt si les résidus sont normalement distribués, mais Y ne l'est pas? )
Qu'est - ce que le changement peut faire (selon la nature de la transformation de données que vous utilisez) est de changer la relation fonctionnelle entre et . Avec un changement non linéaire de (par exemple, pour supprimer le biais), un modèle qui a été correctement spécifié auparavant deviendra mal spécifié. Les transformations non linéaires de sont souvent utilisées pour linéariser la relation entre et , pour rendre la relation plus interprétable ou pour répondre à une question théorique différente. X Y X X X YXXYXXXY
Pour en savoir plus sur la façon dont les transformations non linéaires peuvent changer le modèle et les questions auxquelles le modèle répond (en mettant l'accent sur la transformation du journal), cela peut vous aider à lire ces excellents fils de CV:
Les transformations linéaires peuvent modifier les valeurs de vos paramètres, mais n'affectent pas la relation fonctionnelle. Par exemple, si vous et avant d'exécuter la régression, l'interception, , deviendra . De même, si vous divisez par une constante (par exemple pour changer de centimètres en mètres) la pente sera multipliée par cette constante (par exemple, , c'est-à-dire que augmentera 100 fois plus sur 1 mètre que sur 1 cm). Y ß 0 0 X β 1 ( m ) = 100 × β 1 ( c m ) YXYβ^00Xβ^1 (m)=100×β^1 (cm)Y
D'autre part, les transformations non-linéaires de vont affecter la distribution des résidus. En fait, la transformation de est une suggestion courante pour normaliser les résidus. Le fait qu'une telle transformation les rendrait plus ou moins normaux dépend de la distribution initiale des résidus (et non de la distribution initiale de ) et de la transformation utilisée. Une stratégie courante consiste à optimiser le paramètre de la famille de distributions Box-Cox. Une mise en garde s'impose ici: les transformations non linéaires de peuvent rendre votre modèle mal spécifié, tout comme les transformations non linéaires de peuvent. Y Y λ Y XY YYλYX
Maintenant, si les deux et sont normaux? En fait, cela ne garantit même pas que la distribution conjointe sera normale bivariée (voir l'excellente réponse de @ cardinal ici: est-il possible d'avoir une paire de variables aléatoires gaussiennes pour lesquelles la distribution conjointe n'est pas gaussienne ). YXY
Bien sûr, celles-ci semblent être des possibilités plutôt étranges, alors que se passe-t-il si les distributions marginales semblent normales et la distribution conjointe semble également bivariée normale, cela nécessite-t-il que les résidus soient également distribués normalement? Comme je l' ai essayé de montrer dans ma réponse que je lien ci - dessus, si les résidus sont normalement distribués, la normalité de dépend de la distribution de . Cependant, il n'est pas vrai que la normalité des résidus soit dictée par la normalité des marginaux. Considérez cet exemple simple (codé avec ): XYXR
set.seed(9959) # this makes the example exactly reproducible
x = rnorm(100) # x is drawn from a normal population
y = 7 + 0.6*x + runif(100) # the residuals are drawn from a uniform population
mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.4908 -0.2250 -0.0292 0.2539 0.5303
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 7.48327 0.02980 251.1 <2e-16 ***
# x 0.62081 0.02971 20.9 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared: 0.8167, Adjusted R-squared: 0.8148
# F-statistic: 436.7 on 1 and 98 DF, p-value: < 2.2e-16
Dans les graphiques, nous voyons que les deux marginaux semblent raisonnablement normaux, et la distribution conjointe semble normale bivariée. Néanmoins, l'uniformité des résidus apparaît dans leur qq-plot; les deux queues tombent trop rapidement par rapport à une distribution normale (comme elles doivent en effet).