Les résidus sont nos estimations des termes d'erreur
La réponse courte à cette question est relativement simple: les hypothèses dans un modèle de régression sont des hypothèses sur le comportement des termes d'erreur, et les résidus sont nos estimations des termes d'erreur. Ipso facto , l'examen du comportement des résidus observés nous indique si les hypothèses sur les termes d'erreur sont plausibles ou non.
Pour comprendre plus en détail ce raisonnement général, il est utile d'examiner en détail le comportement des résidus dans un modèle de régression standard. Dans une régression linéaire multiple standard avec des termes d'erreur normaux homoskédastiques indépendants, la distribution du vecteur résiduel est connue, ce qui vous permet de tester les hypothèses de distribution sous-jacentes dans le modèle de régression. L'idée de base est de déterminer la distribution du vecteur résiduel sous les hypothèses de régression, puis de vérifier si les valeurs résiduelles correspondent plausiblement à cette distribution théorique. Les écarts par rapport à la distribution résiduelle théorique montrent que la distribution supposée sous-jacente des termes d'erreur est fausse à certains égards.
Si vous utilisez la distribution d'erreur sous-jacente pour un modèle de régression standard et que vous utilisez l'estimation OLS pour les coefficients, la distribution des résidus peut être montrée comme étant la distribution normale multivariée:ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
où est la matrice de chapeau pour la régression. Le vecteur résiduel imite le vecteur d'erreur, mais la matrice de variance a le terme multiplicatif supplémentaire . Pour tester les hypothèses de régression, nous utilisons les résidus studentisés, qui ont une distribution T marginale:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(Cette formule s'applique aux résidus étudiés en externe, où l'estimateur de variance exclut la variable considérée. Les valeurs sont les valeurs de levier, qui sont les valeurs diagonales dans la matrice du chapeau . Les résidus étudiés ne sont pas indépendantes, mais si est grand, elles sont presque indépendantes. Cela signifie que la distribution marginale est une distribution connue simple mais la distribution conjointe est compliquée.) Maintenant, si la limite existe, alors on peut montrer que les estimateurs de coefficient sont des estimateurs cohérents des vrais coefficients de régression, et les résidus sont des estimateurs cohérents de la vrais termes d'erreur.li=hi,inlimn→∞(xTx)/n=Δ
Essentiellement, cela signifie que vous testez les hypothèses de distribution sous-jacentes pour les termes d'erreur en comparant les résidus studentisés à la distribution T. Chacune des propriétés sous-jacentes de la distribution des erreurs (linéarité, homoscédasticité, erreurs non corrélées, normalité) peut être testée en utilisant les propriétés analogues de la distribution des résidus étudiés. Si le modèle est correctement spécifié, alors pour les grands les résidus doivent être proches des vrais termes d'erreur, et ils ont une forme distributionnelle similaire.n
L'omission d'une variable explicative du modèle de régression entraîne un biais de variable omis dans les estimateurs de coefficient, ce qui affecte la distribution résiduelle. La moyenne et la variance du vecteur résiduel sont affectées par la variable omise. Si les termes omis dans la régression sont alors le vecteur résiduel devient . Si les vecteurs de données dans la matrice omise sont des vecteurs normaux IID et indépendants des termes d'erreur, alorsZδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) de sorte que la distribution résiduelle devient:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
S'il existe déjà un terme d'interception dans le modèle (c'est-à-dire si le vecteur unitaire est dans la matrice de conception), alors1(I−h)1=0, ce qui signifie que la forme distributionnelle standard des résidus est préservée. S'il n'y a pas de terme d'interception dans le modèle, la variable omise peut donner une moyenne non nulle pour les résidus. Alternativement, si la variable omise n'est pas IID normale, cela peut entraîner d'autres écarts par rapport à la distribution résiduelle standard. Dans ce dernier cas, les tests résiduels sont peu susceptibles de détecter quoi que ce soit résultant de la présence d'une variable omise; il n'est généralement pas possible de déterminer si des écarts par rapport à la distribution résiduelle théorique se produisent en raison d'une variable omise, ou simplement en raison d'une relation mal posée avec les variables incluses (et sans doute ce sont la même chose dans tous les cas).