Régression lorsque les résidus OLS ne sont pas distribués normalement

45

Plusieurs sites de ce site discutent de la façon de déterminer si les résidus OLS sont distribués de manière asymptotique normalement. Un autre moyen d'évaluer la normalité des résidus avec le code R est fourni dans cette excellente réponse . Ceci est une autre discussion sur la différence pratique entre les résidus standardisés et observés.

Mais disons que les résidus ne sont définitivement pas distribués normalement, comme dans cet exemple . Nous avons ici plusieurs milliers d'observations et nous devons clairement rejeter l'hypothèse des résidus normalement distribués. Un moyen de résoudre le problème consiste à utiliser une forme d'estimateur robuste, comme expliqué dans la réponse. Cependant, je ne suis pas limité à l'OLS et, dans les faits, j'aimerais comprendre les avantages des autres méthodes, qu'elles soient simples ou non linéaires.

Quel est le moyen le plus efficace de modéliser des données violant l’hypothèse de la normalité MLS des résidus? Ou du moins quelle devrait être la première étape pour développer une méthodologie d'analyse de régression solide?

— Robert Kubrick
source

5

Il existe également plusieurs discussions sur le fait que la normalité est essentiellement non pertinente à de nombreuses fins. Si vous avez des observations indépendantes, et au moins une taille d'échantillon modérée, la seule chose qui compte pour l'inférence MLS est que tous les résidus présentent la même variance. Pas la normalité. Si vous utilisez des estimations d'erreur type robustes / hétéroscédasticité cohérentes / sandwich / Huber-Eicker-White, alors même l'exigence de variance constante n'est pas requise.

— Invité le

@ test Je ne lis que sur l'efficacité du test de normalité dans ce fil. L'analyse de régression n'est même pas étiquetée.

— Robert Kubrick le

Essayez celui-ci . Voici un lien externe . Et voir les chapitres de l'OLS, par exemple Stock et Watson, Introduction à l'économétrie . Je jure que je n'invente rien!

— Invité le

@guest Les deux liens traitent de la distribution de la normalité des résultats, pas des résidus.

— Robert Kubrick le

1

Non, ils ne le font pas. Les auteurs se réfèrent souvent à la "distribution de Y" comme un raccourci pour la "distribution de Y conditionnelle à X". Pour revenir à votre question initiale. À moins que vous ne disposiez d'un échantillon minuscule ou de données extrêmement volumineuses, l'utilisation de MCO avec des erreurs-types robustes est une bonne première étape. Dans ces cas, la normalité n’est pas un problème.

— invité

54

L'estimation par les moindres carrés ordinaires reste un estimateur raisonnable malgré les erreurs non normales. En particulier, le théorème de Gauss-Markov indique que l'estimation des moindres carrés ordinaires est le meilleur estimateur linéaire sans biais (BLUE) des coefficients de régression ('Best' signifie optimal en termes de minimisation de l' erreur quadratique moyenne ) tant que les erreurs

(1) ont une moyenne nulle

(2) ne sont pas corrélés

(3) ont une variance constante

Notez qu'il n'y a pas de condition de normalité ici (ni même de condition que les erreurs soient IID ).

La condition de normalité entre en jeu lorsque vous essayez d'obtenir des intervalles de confiance et / ou des valeurs . Comme @MichaelChernick le mentionne (+1, btw), vous pouvez utiliser une inférence robuste lorsque les erreurs ne sont pas normales, tant que l'écart par rapport à la normalité peut être traité par la méthode - par exemple, (comme nous l'avons vu dans ce fil), le Huber -estimator peut fournir une inférence robuste lorsque la distribution d'erreur réelle est le mélange entre une distribution normale et une distribution à longue queue (ce qui ressemble à votre exemple), mais peut ne pas être utile pour les autres écarts par rapport à la normalité. Une possibilité intéressante à laquelle Michael fait allusion est d’ amorcer un processus pour obtenir des intervalles de confiance pour les estimations de MCO et de voir comment cela se compare à l’inférence de Huber. $p$ $M$

Edit: J'entends souvent dire que vous pouvez compter sur le théorème de la limite centrale pour traiter les erreurs non normales - ce n'est pas toujours vrai (je ne parle pas seulement de contre-exemples où le théorème échoue). Dans l' exemple de données réelles auquel le PO fait référence, nous avons un grand échantillon, mais nous pouvons constater une distribution d'erreur à long terme - dans les situations où vous avez des erreurs à longue queue, vous ne pouvez pas forcément compter sur le théorème de la limite centrale. vous obtenez une inférence approximativement non biaisée pour des tailles d'échantillon finies réalistes. Par exemple, si les erreurs suivent une distribution avec degrés de liberté (ce qui n’est pas clairement plus $t$ $2.01$ les estimations de coefficients sont asymptotiquement normalement distribuées, mais il faut beaucoup plus de temps pour "démarrer" que pour les autres distributions à plus courte queue.

Ci-dessous, je démontre avec une simulation brute Rque lorsque , où , la distribution d'échantillonnage de est toujours assez long même lorsque la taille de l'échantillon est : $y_{i} = 1 + 2x_{i} + \varepsilon_i$ $\varepsilon_{i} \sim t_{2.01}$ $\hat{\beta}_{1}$ $n=4000$

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

entrez la description de l'image ici

— Macro
source

2

+1, c'est un très bon aperçu du sujet. J'apprécie particulièrement l'édition. Existe-t-il quelque chose de spécial à propos de ? Cela semble terriblement spécifique.

d f = 2.01

$df=2.01$

— gung - Réintégrer Monica

2

@gung, Thanks - J'ai choisi car la variance d'une variable aléatoire distribuée n'existe pas lorsque et que le théorème de la limite centrale ne s'appliquerait donc pas.

d f = 2.01

$df=2.01$

t

$t$

d f \leq 2

$df \leq 2$

— Macro

1

@guest, c'était un exemple artificiel juste pour montrer que vous ne pouvez pas faire aveuglément confiance au CLT lorsque vous avez des erreurs à longue queue. Je conviens que cela est extrême pour de nombreuses applications, mais dans l'exemple ( stats.stackexchange.com/questions/29636/… ), le PO mentionné, les données montrent une distribution d'erreur très longue queue - la forme est un peu différente de la distribution, mais ce n'est pas clairement moins long, et il résulte de données réelles. J'avais édité mon "Modifier" pour le mettre en évidence.

t_{2.01}

$t_{2.01}$

— Macro

2

p

$p$

2

@ Invité, je ne discutais jamais contre OLS. En fait, je pense qu’une grande partie de ma réponse était que le MCO était une chose raisonnable à faire, quelles que soient les hypothèses de répartition. Je n’ai jamais non plus prétendu qu’une stricte normalité devait être respectée - ce que je dis, c’est que, lorsque vous avez des erreurs à longue queue, une déduction fondée sur l’approximation normale peut être trompeuse (je ne sais pas si / avec tout ce que vous dites) et il serait judicieux d’envisager une solution de rechange (par exemple, bootstrap). .

— Macro

10

Je pense que vous voulez examiner toutes les propriétés des résidus.

normalité
variance constante
en corrélation avec une covariable.
combinaisons de ce qui précède

Si la valeur est égale à 1 et que cela est dû à un trait lourd ou à une asymétrie due à une queue lourde, une régression robuste pourrait être une bonne approche ou éventuellement une transformation en normalité. S'il s'agit d'une variance non constante, essayez une transformation stabilisante de la variance ou modélisez la fonction de variance. Si c'est juste 3, cela suggère une forme différente de modèle impliquant cette covariable. Quel que soit le problème, amorcer les vecteurs ou les résultats est toujours une option.

— Michael R. Chernick
source

Pour 1, pouvez-vous élaborer sur la transformation en normalité pour les résidus lourds?

— Robert Kubrick le

2

transformation de log ou Box-Cox avec petit lambda rétrécir les queues. Cela peut fonctionner pour certaines distributions à forte densité et asymétriques. Je ne sais pas si des transformations fonctionneront pour les distributions très lourdes.

— Michael R. Chernick le

3

Nice répond Michael. J'ai commencé à utiliser plus systématiquement le bootstrap pour les intervalles de confiance comportant des estimations de régression et des contrastes généraux, et je l'ai rendu facile à utiliser dans mon rmspackage R. Mais comme vous l’avez suggéré, trouver une transformation qui améliore la stabilité de la variance et, parfois, l’amélioration de la normalité des résidus présente souvent plusieurs avantages, même si nous procédons par bootstrap. Les estimations des moindres carrés utilisant la "mauvaise" transformation peuvent s'avérer très inefficaces et conduire à de grandes erreurs moyennes absolues et absolues dans les prédictions. J'aime aussi utiliser des modèles de régression semiparamétriques.

— Frank Harrell

2

Mon expérience est complètement en accord avec Michael Chernick. Non seulement l’application d’une transformation de données rend parfois l’erreur de modélisation normalement distribuée, mais elle permet également de corriger l’hétéroscédasticité.

Désolé, mais suggérer le contraire, comme rassembler une quantité insensée de données ou utiliser des méthodes de régression robustes moins efficaces, est malavisé, à mon avis, de pratiquer cette science / cet art.

— AJKOER
source

1

Macro (ci-dessus) a donné la bonne réponse. Juste un peu de précision parce que j'avais la même question

La condition de normalité des résidus est utile lorsque les résidus sont également homoscédastiques. Le résultat est alors que MCO a la plus petite variance entre tous les estimateurs (linéaire OU non linéaire).

Les hypothèses de MCO élargies:

$E(u|X_i = x) = 0$
$(X_i,Y_i), i=1,…,n,$
Les grandes valeurs aberrantes sont rares
tu es homoskédastique
$N(0,σ^2)$

Si 1-5 est vérifié, alors MLS a la plus petite variance entre tous les estimateurs (linéaire ou non linéaire) .

Si seulement 1 à 4 sont vérifiés, alors, selon Gauss-Markov, MCO est le meilleur estimateur linéaire (uniquement!) (BLUE).

Source: Stock et Watson, Econometrics + mon cours (EPFL, Econometrics)

— firepod
source

La normalité n'est pas requise pour les moindres carrés ordinaires dans y résidus, bien que la normalité confère certaines propriétés souhaitables, par exemple, pour l'analyse du maximum de vraisemblance. Ce dernier est souvent utilisé pour le critère d’information Akaike. Cependant, ceci est inutilement restrictif, peu fréquent, et l'exigence la plus formelle est l'homoscédasticité, et non la normalité, ce qui est une chance, car dans le cas contraire, les moindres carrés ordinaires seraient peu utilisés.

— Carl le

@Carl: à proprement parler, il n'y a pas d'exigence d'OLS, pas même 1 ou 2 (demandez à Excel de faire une régression et aucune question ne sera posée): la normalité est l'une des propriétés qui rendent l'inférence sensée, par exemple la prédiction, la confiance intervalles, tests.

— PatrickT

y

$y$

Nous devons dire la même chose. Peut-être que la formulation de votre premier commentaire m'a dérouté.

— PatrickT

1

Pour des conditions non normales, on aurait parfois recours à une régression robuste , notamment à l'aide des liens vers les méthodes .

Afin de présenter le contexte de la non-normalité, il peut être utile de revoir les hypothèses de régression linéaire MCO , à savoir:

Faible exogénéité . Cela signifie essentiellement que les variables de prédiction, x , peuvent être traitées comme des valeurs fixes plutôt que comme des variables aléatoires. Cela signifie, par exemple, que les variables prédictives sont supposées être sans erreur, c'est-à-dire non contaminées par des erreurs de mesure. Cette hypothèse est celle qui est le plus fréquemment violée et conduit aux erreurs énumérées à la suite de cette liste d'hypothèses.
Linéarité. Cela signifie que la moyenne de la variable de réponse est une combinaison linéaire des paramètres (coefficients de régression) et des variables prédictives. Notez que cette hypothèse est beaucoup moins restrictive qu'il n'y paraît à première vue. Étant donné que les variables de prédiction sont traitées comme des valeurs fixes (voir ci-dessus), la linéarité n'est en réalité qu'une restriction des paramètres. Les variables prédictives elles-mêmes peuvent être transformées de manière arbitraire et, en fait, plusieurs copies de la même variable prédictive sous-jacente peuvent être ajoutées, chacune transformée différemment.
Variance constante (homoscédasticité). Cela signifie que différentes erreurs de la variable de réponse ont la même variance dans leurs erreurs, quelles que soient les valeurs des variables de prédicteur. En pratique, cette hypothèse est invalide (les erreurs sont hétéroscedastiques) si la variable de réponse peut varier sur une large échelle. Pour vérifier la variance d'erreur hétérogène ou lorsqu'un modèle de résidus viole les hypothèses d'homoscédasticité du modèle (l'erreur est également variable autour de la «ligne de meilleur ajustement» pour tous les points de x), il est prudent de rechercher un "effet de ventilateur" entre l’erreur résiduelle et les valeurs prédites. Cela signifie qu'il y aura un changement systématique des résidus absolus ou carrés lorsque comparés aux variables prédictives. Les erreurs ne seront pas réparties uniformément sur la ligne de régression. L'hétéroscédasticité se traduira par le calcul de la moyenne des variances identifiables autour des points pour obtenir une variance unique qui représente de manière imprécise toutes les variances de la ligne. En effet, les résidus apparaissent regroupés et dispersés sur leurs tracés prédits pour des valeurs de plus en plus petites pour les points le long de la ligne de régression linéaire, et l'erreur quadratique moyenne pour le modèle sera fausse.
Indépendance des erreurs. Cela suppose que les erreurs des variables de réponse ne sont pas corrélées les unes avec les autres. (L’indépendance statistique réelle est une condition plus forte que le simple manque de corrélation et n’est souvent pas nécessaire, mais elle peut être exploitée si elle est connue. Cette dernière peut être examinée avec une analyse par grappes et une correction pour interaction.) les moindres carrés) sont capables de gérer les erreurs corrélées, bien qu'ils nécessitent généralement beaucoup plus de données, sauf si une régularisation est utilisée pour biaiser le modèle en supposant des erreurs non corrélées. La régression linéaire bayésienne est un moyen général de traiter ce problème.
La relation statistique entre les termes d'erreur et les variables explicatives joue un rôle important pour déterminer si une procédure d'estimation a des propriétés d'échantillonnage souhaitables, telles que l'absence de biais et la cohérence.
La disposition ou la distribution de probabilité des variables prédictives x a une influence majeure sur la précision des estimations de β. L'échantillonnage et la conception des expériences sont des sous-champs de statistiques très développés qui fournissent des indications pour la collecte de données de manière à obtenir une estimation précise de β.

$t$ $y$ $df$ $df=1$ $t$ $(-\infty,+\infty)$

Il est arbitraire d'invoquer la distribution de Cauchy en ce qui concerne les résidus, en ce sens que, lorsque les erreurs génératrices sont distribuées par Cauchy, les résidus OLS d'une ligne parasite traversant les données seraient encore moins fiables, c'est-à-dire restants. Dans ces cas, on peut utiliser la régression de Theil-Sen . Theil-Sen est certainement plus robuste que l'OLS pour les résidus non normaux. Par exemple, l'erreur distribuée de Cauchy ne dégraderait pas les intervalles de confiance. Contrairement à l'OLS, la régression est également à deux variables, mais elle est toujours biaisée dans le cas à deux variables. La régression de Passage-Bablok peut être non biaisée à deux variables, mais ne s'applique pas aux pentes de régression négatives. Il est le plus couramment utilisé pour les études de comparaison de méthodes. Il faut mentionner la régression de DemingIci, contrairement aux régressions de Theil-Sen et de Passing-Bablok, il s’agit d’une solution réelle au problème à deux variables, mais elle n’a pas la robustesse de ces autres régressions. La robustesse peut être accrue en tronquant les données pour inclure les valeurs les plus centrales, par exemple, le RANSAC ( random sample consensus ) est une méthode itérative permettant d’estimer les paramètres d’un modèle mathématique à partir d’un ensemble de données observées contenant des valeurs éloignées.

$x$ $^1$ $x$ $y$ Les valeurs sont distribuées au hasard. La nécessité d'une régression à deux variables peut être vérifiée en ajustant une droite de régression MCO aux résidus d'une régression MLS des données. Ensuite, si les résidus OLS ont une pente non nulle, le problème est bivarié et la régression OLS des données aura une amplitude de pente trop faible et une intersection trop grande pour être représentative de la relation fonctionnelle. entre et . Dans ces cas, l'estimateur linéaire d'erreur le plus petit des valeurs serait en effet toujours issu de la régression OLS, et sa valeur R sera égale à une valeur maximale possible, mais la ligne de régression OLS ne représentera pas la fonction de ligne réelle qui le concerne. le et $x$ $y$ $y$ $^2$ $x$ $y$ variables aléatoires. En guise d’exemple contraire, lorsque, comme cela se produit entre autres problèmes dans une série chronologique à valeurs équidistantes , la méthode MCO des données brutes n’est pas toujours inappropriée, elle peut représenter la meilleure ligne , mais reste sujette à transformation de variable, par exemple pour les données de comptage, on prend la racine carrée des comptages pour convertir les erreurs pour les erreurs distribuées de Poisson en conditions plus normales, et on doit quand même vérifier la pente non nulle de la valeur résiduelle. $x$ $y=f(x)$

Longford, NT (2001). "Correspondance". Journal de la Société royale de statistique, série A. 164: 565. doi: 10.1111 / 1467-985x.00219

— Carl
source