Les hypothèses des moindres carrés


9

Supposons la relation linéaire suivante: , où est la variable dépendante, une seule variable indépendante et le terme d'erreur.Y i X i u iYi=β0+β1Xi+uiYiXiui

Selon Stock & Watson (Introduction à l'économétrie; chapitre 4 ), la troisième hypothèse des moindres carrés est que les quatrièmes moments de et sont non nuls et finis .u i ( 0 < E ( X 4 i ) <  et  0 < E ( u 4 i ) < )Xiui(0<E(Xi4)< and 0<E(ui4)<)

J'ai trois questions:

  1. Je ne comprends pas bien le rôle de cette hypothèse. L'OLS est-il biaisé et incohérent si cette hypothèse ne tient pas ou avons-nous besoin de cette hypothèse pour l'inférence?

  2. Stock et Watson écrivent «cette hypothèse limite la probabilité de tirer une observation avec des valeurs extrêmement grandes de ou ». Cependant, mon intuition est que cette hypothèse est extrême. Sommes-nous en difficulté si nous avons de grandes valeurs aberrantes (telles que les quatrièmes moments sont grands) mais si ces valeurs sont encore finies? Soit dit en passant: quelle est la définition sous-jacente d'une valeur aberrante?u iXjeuje

  3. Pouvons-nous reformuler ceci comme suit: "Les kurtosis de et sont non nuls et finis?"u iXjeuje


Malheureusement, je ne peux pas écrire une réponse à part entière maintenant, mais pour vous répondre à la question: 1, la cohérence OLS fonctionne malgré tout. 2, il n'existe pas de définition claire des valeurs aberrantes, mais l'OLS fonctionne bien dans un grand échantillon en présence de valeurs aberrantes. 3, pour la vie de moi, je ne peux pas penser à un exemple où cela ne serait pas vrai, mais quelqu'un pourrait me prouver le contraire, donc aucune garantie
Repmat

5
Je conteste "mais l'OLS fonctionne très bien dans un grand échantillon en présence de valeurs aberrantes" ... prenez une valeur aberrante suffisamment grande dans l'espace x (c'est-à-dire une observation influente) et un seul point peut forcer le LS apte à le traverser; s'il s'agit également d'une valeur aberrante dans la direction Y, votre ligne passera toujours par ce point, quelle que soit son extrême.
Glen_b -Reinstate Monica

2
Les valeurs aberrantes sont faciles à définir. Ce sont des observations incompatibles avec la structure de la majeure partie des données. Comme le montre l'exemple de Glen_b, un tel point a une influence indue sur l'ajustement, à la limite dépassant toutes les autres observations dans l'ensemble de données, conduisant à des estimations très biaisées.
user603

1
@ user603 Bien sûr ... et ainsi de suite ... Je n'ai pas encore rencontré de programme / script qui détecte automatiquement les valeurs aberrantes et le fait de manière claire que nous sommes tous d'accord pour dire que c'est la bonne façon ... alors même si je suis d'accord avec votre sentiment, ça n'aide pas OP
Repmat

@Repmat: veuillez relire la question du PO. Mon commentaire répond directement à l'une des phrases qui est ponctuée d'un point d'interrogation.
user603

Réponses:


9

Vous n'avez pas besoin d'hypothèses sur les 4èmes moments pour la cohérence de l'estimateur OLS, mais vous avez besoin d'hypothèses sur les moments supérieurs de et ϵ pour la normalité asymptotique et pour estimer de manière cohérente ce qu'est la matrice de covariance asymptotique.Xϵ

Dans un certain sens cependant, c'est un point mathématique, technique, pas un point pratique. Pour que OLS fonctionne bien dans des échantillons finis, dans un certain sens, il faut plus que les hypothèses minimales nécessaires pour atteindre la cohérence asymptotique ou la normalité comme .n

Conditions suffisantes pour la cohérence:

Si vous avez l'équation de régression:

yje=Xjeβ+ϵje

L'estimateur OLS b peut être écrit sous la forme: b = β + ( X ' Xb^

b^=β+(XXn)-1(Xϵn)

Par souci de cohérence , vous devez être en mesure d'appliquer la loi de Kolmogorov sur les grands nombres ou, dans le cas de séries chronologiques avec dépendance série, quelque chose comme le théorème ergodique de Karlin et Taylor afin que:

1nXXpE[XjeXje]1nXϵpE[Xjeϵje]

Les autres hypothèses nécessaires sont:

  • est de rang complet et donc la matrice est inversible.E[XjeXje]
  • Les régresseurs sont prédéterminés ou strictement exogènes de sorte que .E[Xjeϵje]=0

Alors et vous obtenez b pß(XXn)-1(Xϵn)p0b^pβ

Si vous voulez que le théorème de la limite centrale s'applique, alors vous avez besoin d'hypothèses sur les moments supérieurs, par exemple, g i = x i ϵ i . Le théorème central limite est ce que vous donne la normalité asymptotique de b et vous permet de parler des erreurs standard. Pour que le deuxième moment E [ g i g i ] existe, vous avez besoin des 4èmes moments de x et ϵ pour exister. Vous voulez faire valoir que E[gjegje]gje=Xjeϵjeb^E[gjegje]XϵΣ=E[xixi ϵ 2 i ]. Pour que cela fonctionne,Σdoit être fini.n(1njeXjeϵje)N(0,Σ)Σ=E[XjeXjeϵje2]Σ

Une belle discussion (qui a motivé ce post) est donnée dans l' économétrie de Hayashi . (Voir aussi p. 149 pour les 4èmes moments et l'estimation de la matrice de covariance.)

Discussion:

Ces exigences sur les 4èmes moments sont probablement un point technique plutôt qu'un point pratique. Vous n'allez probablement pas rencontrer de distributions pathologiques où c'est un problème dans les données de tous les jours? C'est pour que les hypothèses les plus courantes ou d'autres OLS tournent mal.

Une autre question, sans aucun doute posée ailleurs sur Stackexchange, est la taille d'un échantillon dont vous avez besoin pour des échantillons finis afin de vous rapprocher des résultats asymptotiques. Il y a un certain sens dans lequel des valeurs aberrantes fantastiques conduisent à une convergence lente. Par exemple, essayez d'estimer la moyenne d'une distribution log-normale avec une variance très élevée. La moyenne de l'échantillon est un estimateur cohérent et non biaisé de la moyenne de la population, mais dans ce cas log-normal avec un excès de kurtosis fou, etc.

Fini et infini est une distinction extrêmement importante en mathématiques. Ce n'est pas le problème que vous rencontrez dans les statistiques quotidiennes. Les problèmes pratiques se situent davantage dans la catégorie petite vs grande. La variance, le kurtosis, etc. sont-ils suffisamment petits pour que je puisse obtenir des estimations raisonnables compte tenu de la taille de mon échantillon?

Exemple pathologique où l'estimateur OLS est cohérent mais pas asymptotiquement normal

Considérer:

yje=bXje+ϵje
XjeN(0,1)ϵjeVuner(ϵje)=bb^b^ basé sur 10000 simulations d'une régression avec 10000 observations. QQPlot for estimator (ne converge pas dans la distribution vers la normale)

b^ϵjeQQPlot for estimator (converge en distribution vers la normale)

Code pour le générer:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));

1
t(3)

1
n(1njeXjeϵje)N(0,Σ)Σ=E[XjeXjeϵje2]ΣΣϵjeϵje2XjeXje

6
  1. X

  2. Ces fondements théoriques des statistiques provoquent beaucoup de confusion lorsqu'ils se résument à des applications pratiques. Il n'y a pas de définition d'une valeur aberrante, c'est un concept intuitif. Pour la comprendre approximativement, l'observation devrait être un point de levier élevé ou un point d'influence élevé, par exemple pour lequel le diagnostic de suppression (DF beta) est très grand, ou pour lequel la distance de Mahalanobis dans les prédicteurs est grande (dans les statistiques univariées c'est juste un score Z). Mais revenons à des questions pratiques: si je mène une enquête aléatoire sur les personnes et le revenu de leur ménage, et sur 100 personnes, 1 des personnes que j'échantillon est un millionnaire, ma meilleure supposition est que les millionnaires sont représentatifs de 1% de la population . Dans une conférence sur les biostatistcs, ces principes sont discutés et soulignés que tout outil de diagnostic est essentiellement exploratoire [3].ce n'est pas "l'analyse qui exclut la valeur aberrante est celle que je crois", c'est "supprimer un point a complètement changé mon analyse".

  3. La kurtosis est une quantité mise à l'échelle qui dépend du deuxième moment d'une distribution, mais l'hypothèse d'une variance finie non nulle pour ces valeurs est tacite car il est impossible que cette propriété se maintienne au quatrième moment mais pas au second. Donc, fondamentalement oui, mais dans l'ensemble je n'ai jamais inspecté ni kurtosis ni quatrième moment. Je ne les trouve pas comme une mesure pratique ou intuitive. En ce jour où un histogramme ou un nuage de points est produit par le claquement de doigts, il nous appartient d'utiliser des statistiques diagnostiques graphiques qualitatives, en inspectant ces graphiques.

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html


Comme cela a été souligné précédemment, l'intuition des individus à l'égard des valeurs aberrantes tombe en panne lorsqu'il y en a plusieurs. Ils ne se démarqueront pas nécessairement dans un tracé bêta DF ou n'auront pas de grands scores z car ces statistiques elles-mêmes peuvent être influencées par des valeurs aberrantes. Comme nous l'avons vu précédemment, les valeurs aberrantes , si elles ne sont pas contrôlées, produiront des coefficients biaisés, sauf si vous les supprimez ou utilisez une technique d'estimation robuste.
user603

1
Je pense que plus généralement, lors de l'expression d'opinions, vos réponses gagneraient à inclure des pointeurs vers la littérature pertinente afin que le PO sache laquelle de ces opinions est largement partagée.
user603

@ user603 À votre premier commentaire, je n'ai pas indiqué DFbetas (ou tout autre outil de diagnostic) comme méthode exclusive d'identification des valeurs aberrantes, mais certainement utile. Lorsque vous effectuez une inférence semi-paramétrique (modèle moyen correct), les valeurs aberrantes NE biaisent PAS les modèles LS. Pouvez-vous produire une référence ou même un exemple dans tous les cas autre que LS non paramétrique? Votre deuxième commentaire est bon, et je vais prendre quelques instants pour fournir des citations.
AdamO

Votre déclaration, "OLS n'est pas biaisé dans ces conditions, il est juste incohérent" n'est pas correcte. Les moments supérieurs sont nécessaires pour une normalité asymptotique. Ils ne sont pas nécessaires pour la cohérence des échantillons d'IID où la loi de Kolmogorov des grands nombres s'applique.
Matthew Gunn
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.