Modèle linéaire Hétéroscédasticité

J'ai le modèle linéaire suivant:

Résidus du modèle linéaire Distribution des observations

Pour résoudre l'hétéroscédasticité des résidus, j'ai essayé d'appliquer une transformation logarithmique à la variable dépendante comme mais je vois toujours le même effet de fan out sur les résidus. Les valeurs DV sont relativement petites, donc l'addition constante +1 avant de prendre le journal n'est probablement pas appropriée dans ce cas. $\log(Y + 1)$

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

Comment puis-je transformer les variables pour améliorer l'erreur de prédiction et la variance, en particulier pour les valeurs ajustées d'extrême droite?

— Robert Kubrick
source

Réponses:

Quel est ton but? Nous savons que l'hétéroskédasticité ne biaise pas nos estimations de coefficient; cela rend seulement nos erreurs standard incorrectes. Par conséquent, si vous ne vous souciez que de l'ajustement du modèle, l'hétéroscédasticité n'a pas d'importance.

Vous pouvez obtenir un modèle plus efficace ( c'est-à - dire un modèle avec des erreurs standard plus petites) si vous utilisez des moindres carrés pondérés. Dans ce cas, vous devez estimer la variance pour chaque observation et pondérer chaque observation par l'inverse de cette variance spécifique à l'observation (dans le cas de l' weightsargument to lm). Cette procédure d'estimation modifie vos estimations.

Alternativement, pour corriger les erreurs standard d'hétéroscédasticité sans modifier vos estimations, vous pouvez utiliser des erreurs standard robustes. Pour une Rapplication, voir le package sandwich.

L'utilisation de la transformation logarithmique peut être une bonne approche pour corriger l'hétéroscédasticité, mais uniquement si toutes vos valeurs sont positives et que le nouveau modèle fournit une interprétation raisonnable par rapport à la question que vous posez.

— Charlie
source

Mon objectif principal est de réduire les erreurs. Je devrai examiner les moindres carrés pondérés, mais j'avais l'impression qu'une transformation DV était la bonne étape, étant donné la fréquence à laquelle la variance résiduelle augmente pour des valeurs ajustées plus élevées.

— Robert Kubrick

Que voulez-vous dire par "réduire les erreurs"? L'erreur moyenne est de 0. Même en regardant dans votre intrigue, dans la fenêtre de votre choix, la moyenne est de 0.

— Charlie

Je veux dire améliorer la prédiction du modèle, c'est-à-dire réduire l'erreur absolue globale et la variance d'erreur, en particulier pour les valeurs ajustées plus élevées.

— Robert Kubrick

Supposons que vous puissiez transformer de manière à réduire l'hétéroscédasticité. Si vous voulez prédire , vous devrez appliquer l'inverse de cette transformation, ramenant le problème d'hétéroscédasticité. Les transformations sont bonnes si tout ce qui vous intéresse sont des coefficients, mais ne vont pas vous aider si vous essayez de prédire .

y

$y$

y

$y$

y

$y$

— Charlie

Je suppose que vous ne voulez pas prédire le transformé , non? En effet, votre transformation devrait réduire la distance entre les sur votre échelle d'origine. Vous créez des intervalles de prédiction sur l'échelle transformée qui ont une largeur similaire sur les valeurs transformées , mais lorsque vous annulez la transformation, les intervalles de prédiction sont étirés sur l' échelle origine .

y

$y$

y

$y$

y

$y$

y

$y$

— Charlie

Vous voudriez essayer la transformation Box-Cox . C'est une version d'une transformation du pouvoir:

y \mapsto {\begin{array}{rcl} \frac{y^{λ} - 1}{λ (\dot{y})^{λ - 1}}, & λ \neq 0 \\ \dot{y} \ln y, & λ = 0 \end{array}

$y \mapsto \left\{ \begin{eqnarray} \frac{y^\lambda-1}{\lambda (\dot y)^{\lambda-1}}, & \lambda \neq 0 \\ \dot y \ln y, & \lambda = 0 \end{eqnarray} \right.$ où est la moyenne géométrique des données. Lorsqu'il est utilisé comme une transformation de la variable de réponse, son rôle nominal est de rapprocher les données de la distribution normale, et l'asymétrie est la principale raison pour laquelle les données peuvent sembler non normales. Mon instinct avec votre nuage de points est qu'il doit être appliqué à (certaines) des variables explicatives et de réponse.

\dot{y}

$\dot y$

Certaines discussions antérieures incluent: Quelles autres transformations de normalisation sont couramment utilisées au-delà des transformations courantes comme la racine carrée, le journal, etc.? et comment transformer des données non négatives, y compris des zéros? . Vous pouvez trouver le code R suivant Comment rechercher une procédure statistique dans R?

Les économétriciens ont cessé de se soucier de l'hétéroskédasticité après les travaux fondateurs de Halbert White (1980) sur la mise en place de procédures inférentielles robustes à l'hétéroskédasticité (qui en fait viennent de raconter l'histoire antérieure d'un statisticien F.Eicker (1967)). Voir la page Wikipedia que je viens de réécrire.

— StasK
source

Merci, à ce stade, je discute de l'opportunité d'appliquer une transformation de puissance ou d'utiliser une régression robuste pour réduire les erreurs et améliorer les intervalles de prédiction. Je me demande comment les deux techniques se comparent. De plus, si j'utilise la transformation, j'aurais besoin de retransformer les valeurs prédites. Cela ne ressemble pas à une formule évidente, n'est-ce pas?

— Robert Kubrick

Si par régression robuste, vous voulez dire des erreurs standard robustes comme le décrit @StasK, cela ne change pas du tout les résidus / erreurs. Les coefficients sont exactement les mêmes que OLS, donnant exactement les mêmes résidus. Les erreurs standard des coefficients changent et sont généralement plus importantes que les OLS SE. Les intervalles de prédiction sont améliorés en ce que vous utilisez maintenant les erreurs standard correctes pour vos coefficients (bien qu'elles soient probablement plus grandes par rapport à celles d'OLS). Si votre objectif est de prédire , vous devez vraiment vous en tenir au modèle linéaire et utiliser les techniques que je mentionne dans ma réponse.

y

$y$

— Charlie

@Charlie, je veux dire en.wikipedia.org/wiki/Robust_regression . Je suis nouveau dans ce domaine, mais je comprends qu'une régression robuste modifie la technique d'estimation, par conséquent, les résidus doivent être différents.

— Robert Kubrick

Bon, c'est une méthode différente et cela change vos estimations. Je pense que la régression robuste est mieux adaptée aux cas avec des valeurs aberrantes. Selon la version de régression robuste que vous décidez d'utiliser et votre ensemble de données particulier, vous pouvez obtenir des intervalles de confiance plus larges par rapport à OLS.

— Charlie

Il existe une solution très simple au problème d'hétéroscédasticité associé aux variables dépendantes dans les données de séries chronologiques. Je ne sais pas si cela s'applique à votre variable dépendante. En supposant que c'est le cas, au lieu d'utiliser Y nominal, changez-le en% de variation de Y par rapport à la période actuelle par rapport à la période précédente. Par exemple, supposons que votre Y nominal soit un PIB de 14 billions de dollars au cours de la période la plus récente. Calculez plutôt la variation du PIB au cours de la période la plus récente (disons 2,5%).

Une série temporelle nominale croît toujours et est toujours hétéroscédastique (la variance de l'erreur augmente avec le temps parce que les valeurs augmentent). Une série de variation en% est généralement homoscédastique car la variable dépendante est à peu près stationnaire.

— Sympa
source

Les valeurs j'utilise sont des variations en% chronologiques par rapport à la période précédente.

Y

$Y$

— Robert Kubrick

C'est surprenant. Habituellement, les variables de changement en% ne sont pas hétéroscédastiques. Je me demande si les résidus sont moins hétéroscédastiques que nous le pensons. Et, que la question sous-jacente est l'une des valeurs aberrantes. Je vois 4 ou 5 observations dans la plage de 0,15% qui, si elles étaient supprimées, rendraient le graphique entier moins hétéroskédastique. De plus, comme d'autres l'ont mentionné, l'hétéroscédasticité ne corrompra pas vos coefficients de régression, mais uniquement vos intervalles de confiance et l'erreur standard associée. Cependant, en regardant votre graphique, il semble que les CI ne soient pas trop affectés. Et, pourrait encore être utile.

— Sympa