10

Supposons que nous ayons un modèle . $Y_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i$

La régression a un certain nombre d'hypothèses, telles que les erreurs devraient être normalement distribuées avec un zéro moyen et une variance constante. On m'a appris à vérifier ces hypothèses en utilisant un graphique QQ normal pour tester la normalité des résidus et un graphique résidus vs ajusté pour vérifier que les résidus varient autour de zéro avec une variance constante. $\epsilon_i$ $e_i = Y_i - \hat{Y}_i$

Cependant, ces tests sont tous sur les résidus, pas sur les erreurs.

D'après ce que je comprends, les erreurs sont définies comme l'écart de chaque observation par rapport à leur «vraie» valeur moyenne. Nous pouvons donc écrire . Ces erreurs ne peuvent pas être observées par nous. * $\epsilon_i = Y_i - \mathbb{E}[Y_i]$

Ma question est la suivante: dans quelle mesure les résidus permettent-ils de reproduire les erreurs?

Si les hypothèses semblent satisfaites sur les résidus, cela signifie-t-il qu'elles sont également satisfaites sur les erreurs? Existe-t-il d'autres (meilleures) façons de tester les hypothèses, comme l'ajustement du modèle à un ensemble de données de test et l'obtention des résidus à partir de là?

* De plus, cela ne nécessite-t-il pas que le modèle soit spécifié correctement ? C'est-à-dire que la réponse a vraiment une relation avec les prédicteurs etc. de la manière spécifiée par le modèle. $X_1, X_2,$

S'il nous manque des prédicteurs (disons, ), alors l'attente ne serait même pas la vraie moyenne, et une analyse plus approfondie sur un modèle incorrect semble inutile. $X_{k+1}\ \text{to}\ X_p$ $\mathbb{E}[Y_i] = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik}$

Comment vérifier si le modèle est correct?

regression residuals error

— mai
source

9

Les résidus sont nos estimations des termes d'erreur

La réponse courte à cette question est relativement simple: les hypothèses dans un modèle de régression sont des hypothèses sur le comportement des termes d'erreur, et les résidus sont nos estimations des termes d'erreur. Ipso facto , l'examen du comportement des résidus observés nous indique si les hypothèses sur les termes d'erreur sont plausibles ou non.

Pour comprendre plus en détail ce raisonnement général, il est utile d'examiner en détail le comportement des résidus dans un modèle de régression standard. Dans une régression linéaire multiple standard avec des termes d'erreur normaux homoskédastiques indépendants, la distribution du vecteur résiduel est connue, ce qui vous permet de tester les hypothèses de distribution sous-jacentes dans le modèle de régression. L'idée de base est de déterminer la distribution du vecteur résiduel sous les hypothèses de régression, puis de vérifier si les valeurs résiduelles correspondent plausiblement à cette distribution théorique. Les écarts par rapport à la distribution résiduelle théorique montrent que la distribution supposée sous-jacente des termes d'erreur est fausse à certains égards.

Si vous utilisez la distribution d'erreur sous-jacente pour un modèle de régression standard et que vous utilisez l'estimation OLS pour les coefficients, la distribution des résidus peut être montrée comme étant la distribution normale multivariée: $\epsilon_i \sim \text{IID N}(0, \sigma^2)$

r = (I - h) ϵ \sim N (0, σ^{2} (I - h)),

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{\epsilon} \sim \text{N}(\boldsymbol{0}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h})),$

où est la matrice de chapeau pour la régression. Le vecteur résiduel imite le vecteur d'erreur, mais la matrice de variance a le terme multiplicatif supplémentaire . Pour tester les hypothèses de régression, nous utilisons les résidus studentisés, qui ont une distribution T marginale: $\boldsymbol{h} = \boldsymbol{x} (\boldsymbol{x}^{\text{T}} \boldsymbol{x})^{-1} \boldsymbol{x}^{\text{T}}$ $\boldsymbol{I} - \boldsymbol{h}$

s_{i} \equiv \frac{r_{i}}{{\hat{σ}}_{Ext} \cdot (1 - l_{i})} \sim T ({df}_{Res} - 1) .

$s_i \equiv \frac{r_i}{\hat{\sigma}_{\text{Ext}} \cdot (1-l_i)} \sim \text{T}(\text{df}_{\text{Res}}-1).$

(Cette formule s'applique aux résidus étudiés en externe, où l'estimateur de variance exclut la variable considérée. Les valeurs sont les valeurs de levier, qui sont les valeurs diagonales dans la matrice du chapeau . Les résidus étudiés ne sont pas indépendantes, mais si est grand, elles sont presque indépendantes. Cela signifie que la distribution marginale est une distribution connue simple mais la distribution conjointe est compliquée.) Maintenant, si la limite existe, alors on peut montrer que les estimateurs de coefficient sont des estimateurs cohérents des vrais coefficients de régression, et les résidus sont des estimateurs cohérents de la vrais termes d'erreur. $l_i = h_{i,i}$ $n$ $\lim_{n \rightarrow \infty} (\boldsymbol{x}^{\text{T}} \boldsymbol{x}) / n = \Delta$

Essentiellement, cela signifie que vous testez les hypothèses de distribution sous-jacentes pour les termes d'erreur en comparant les résidus studentisés à la distribution T. Chacune des propriétés sous-jacentes de la distribution des erreurs (linéarité, homoscédasticité, erreurs non corrélées, normalité) peut être testée en utilisant les propriétés analogues de la distribution des résidus étudiés. Si le modèle est correctement spécifié, alors pour les grands les résidus doivent être proches des vrais termes d'erreur, et ils ont une forme distributionnelle similaire. $n$

L'omission d'une variable explicative du modèle de régression entraîne un biais de variable omis dans les estimateurs de coefficient, ce qui affecte la distribution résiduelle. La moyenne et la variance du vecteur résiduel sont affectées par la variable omise. Si les termes omis dans la régression sont alors le vecteur résiduel devient . Si les vecteurs de données dans la matrice omise sont des vecteurs normaux IID et indépendants des termes d'erreur, alors $\boldsymbol{Z} \boldsymbol{\delta}$ $\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon})$ $\boldsymbol{Z}$ $\boldsymbol{Z \delta} + \boldsymbol{\epsilon} \sim \text{N} (\mu \boldsymbol{1}, \sigma_*^2 \boldsymbol{I})$ de sorte que la distribution résiduelle devient:

r = (I - h) (Z δ + ϵ) \sim N (μ (I - h) 1, σ_{*}^{2} (I - h)) .

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon}) \sim \text{N} \Big( \mu (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1}, \sigma_*^2 (\boldsymbol{I} - \boldsymbol{h}) \Big).$

S'il existe déjà un terme d'interception dans le modèle (c'est-à-dire si le vecteur unitaire est dans la matrice de conception), alors $\boldsymbol{1}$ $(\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1} = \boldsymbol{0}$ , ce qui signifie que la forme distributionnelle standard des résidus est préservée. S'il n'y a pas de terme d'interception dans le modèle, la variable omise peut donner une moyenne non nulle pour les résidus. Alternativement, si la variable omise n'est pas IID normale, cela peut entraîner d'autres écarts par rapport à la distribution résiduelle standard. Dans ce dernier cas, les tests résiduels sont peu susceptibles de détecter quoi que ce soit résultant de la présence d'une variable omise; il n'est généralement pas possible de déterminer si des écarts par rapport à la distribution résiduelle théorique se produisent en raison d'une variable omise, ou simplement en raison d'une relation mal posée avec les variables incluses (et sans doute ce sont la même chose dans tous les cas).

— Ben - Réintègre Monica
source

1

Merci pour la réponse complète. Puis-je demander où vous avez obtenu ? Il me semble que

r = (I - h) ϵ

$r=(I−h)ϵ$

r = Y - \hat{Y} = (I - h) Y

$r=Y-\hat{Y}=(I-h)Y$

— mai

1

Puisque vous avez pour que .

h x = x

$\boldsymbol{h} \boldsymbol {x} = \boldsymbol {x}$

(I - h) x = 0

$(\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {x} = \boldsymbol {0}$

r = (I - h) Y = (I - h) (x β + ϵ) = (I - h) ϵ

$\boldsymbol {r} = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {Y} = (\boldsymbol {I} - \boldsymbol {h}) (\boldsymbol {x} \boldsymbol {\beta} + \boldsymbol {\epsilon} ) = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {\epsilon}$

— Ben - Réintègre Monica le

-4

Habituellement, les termes résiduels et erreurs signifient la même chose. Si votre modèle n'a pas de prédicteurs, E (Y) est en effet la moyenne de Y. Avec les prédicteurs (comme dans votre modèle), E (Y) est la valeur de Y prédite à partir de chaque X. Les résidus sont donc la différence entre chacun observé et prédit Y.

— Tim Bednall
source

3

"Habituellement, les termes résiduels et erreurs signifient la même chose." Je ne pense pas que ce soit vrai - pour autant que je sache, les résidus mesurent la différence entre la valeur observée et la valeur prédite, tandis que les erreurs mesurent la différence entre la valeur observée et la vraie valeur moyenne.

— mai

1

Les erreurs et les résidus à proprement parler ne sont pas synonymes. Les premiers sont des variables aléatoires, les seconds sont des réalisations.

— Richard Hardy

Pourquoi utilisons-nous des résidus pour tester les hypothèses sur les erreurs de régression?

Les résidus sont nos estimations des termes d'erreur