OLS:

Supposons que sont des séries chronologiques avec , ( et est similaire à celle de , mais change lorsque le mannequin = 1). et , . Dans un contexte réel, il s'agira de rendements boursiers périodiques sur entreprises (mais vous pouvez ignorer cela). Il existe un mannequin, qui est égal à l'unité sur et égal à zéro sinon. Le modèle de série chronologique à estimer avec OLS est: ${X_{it}},{Y_{it}}$ $X_{it}\sim N(0.1,1)$ $\sigma^2(Y_{it}) = 1$ $mean(Y_{it})$ $X_{it}$ $t \in \{1,2,...,200\}$ $i \in \{1,2,...,N\}$ $N$ $D_t$ $t \in \{150,151,...,200\}$ $\forall i$

$(1) Y_{it} = \alpha_i + \beta_i X_{it} + \gamma_i D_{t} + \epsilon_{it}$

Ce modèle adhère généralement aux hypothèses de Gauss-Markov pour chaque . Cependant, nous avons pour tout et . $i$ $E[\epsilon_{it}^T \epsilon_{jt}] \not= 0$ $i$ $j$

L'étape suivante consiste à construire un vecteur de gammas en utilisant les estimations du modèle . Appelez ce vecteur . Nous utilisons ensuite ceci dans le modèle transversal: $N$ $(1)$ $\bf{\hat{\gamma}}$

$(2) \hat{\gamma}_i = a + b Z_i + u_i$

où est une variable transversale qui ne provoque aucune violation des hypothèses OLS et est pertinente pour expliquer . $Z_i$ $\hat{\gamma}_i$

Dans la littérature sur l'économétrie appliquée, l'affirmation est que dans le modèle n'entraîne (i) aucun problème pour les estimations du coefficient OLS dans , mais (ii) Erreurs standard biaisées dans . $E[\epsilon_{it}^T \epsilon_{jt}] \not= 0$ $(1)$ $(2)$ $(2)$

Quelqu'un peut-il s'il vous plaît poster des idées sur les raisons de ce cas?
Je ne comprends pas ce que est dans l'expression . Bien sûr, est un scalaire et vous ne pouvez pas transposer un scalaire. Ceci est vu ICI , où ils appliquent cette méthodologie. $\epsilon_{it}^T$ $E[\epsilon_{it}^T \epsilon_{jt}] \not= 0$ $\epsilon_{it}$

Vous dites que vous ne comprenez pas pourquoi les estimations de la variance sont biaisées dans l'équation 2 et vous dites ensuite que nous pouvons ignorer votre estimation qui se trouve être l'équation 2? Je pense que je comprends ce que vous voulez dire et pourriez donner une réponse spéculative à cela, mais il vaudrait mieux que vous précisiez votre question.

γ

$\gamma$

— JDav

Dans votre configuration, ne peut pas être stationnaire, car sa moyenne dépend de .

Y_{i t}

$Y_{it}$

t

$t$

— mpiktas

Il y a trois versions de l'attente (une dans le titre, une autre dans le corps et une troisième dans les commentaires). Tous intègrent une transposition mystérieuse même si dans tous les cas seuls des scalaires sont présents. Cela vous dérange-t-il de modifier votre message pour clarifier?

— cardinal

@mpiktas Observation correcte, a une moyenne différente après (étant donné ). Merci.

Y_{i t}

$Y_{it}$

t = 150

$t=150$

γ_{i} \neq 0

$\gamma_i \not= 0$

Quelques bonnes réponses ont été apportées - j'ajouterais simplement que cela doit être estimé comme un modèle de coefficients aléatoires (aka modèle à plusieurs niveaux pour les sociologues et les psychologues, aka modèle mixte pour les biostatisticiens). Si les économistes ne le savent pas et l'estiment avec une procédure en deux étapes, c'est tout simplement dommage pour eux (et j'attends toujours la mort des erreurs standard de Fama-Macbeth, ce qu'ils ne veulent apparemment tout simplement pas faire).

— StasK

Réponses:

Pour être sûr que vous devez entrer dans les détails, cela implique de comparer la matrice de covariance de la variance vraie avec celle que vous obtenez dans la deuxième étape.

Le vrai :

Ceci peut être obtenu en remplaçant eq.2 par eq.1, l'OLS groupé suit, et de lui, le vrai $\hat a , \hat b$ matrice de covariance de variance:

$Y_{it} = \alpha_i + \beta_i X_{it} + aD_t + bD_tZ_{i} +D_t u_{i} + \epsilon_{it}$

Utiliser la notation matricielle pour diviser l'équation en $\gamma$ paramètres et autres conduit à:

$Y = X\theta + Z\gamma + \varepsilon$

où nous sommes intéressés $V(\hat \gamma)$ , $\gamma=[a \; b]$ , Z est un vecteur à deux colonnes $Z=[D_t \; D_tZ_i]_{[i=1,..,N;t=1,...,T]}$ (une structure similaire définit X mais cela n'a pas d'intérêt) et où $V(\varepsilon) =\Sigma$ a une structure complète de covariances entre les entreprises, c'est pourquoi il n'est pas diagonal ( $\sigma^2I_{NT}$ ) comme dans les hypothèses GAUSS-MARKOV. Par Frish-Waugh nous pouvons exprimer $\gamma$ ols comme:

$\hat \gamma = (Z'M_{X}Z)^{-1}Z'M_{X}Y$ où $M_X= I-X(X'X)^{-1}X'$

ce qui implique la vraie variance suivante:

$V(\hat \gamma) = H\Sigma H'$ où $H = (Z'M_{X}Z)^{-1}Z'M_{X}$

L'autre

Dans l'hypothèse d'entreprises non corrélées (et de périodes mais ce n'est pas le problème), $\Sigma$ a une structure diagonale plus simple $\Delta$ . Cela signifie que $\Delta$ les termes triangulaires sont 0. Sous une spécification encore plus simple, (celle qui est estimée par défaut par les logiciels économétriques et statistiques pour OLS) $\Sigma$ suit les hypothèses de GAUSS-Markov signifiant que même les termes diagonaux sont égaux ainsi $\Sigma$ est rétrogradé à $\sigma^2I$

Cela implique que ne pas tenir compte de la corrélation entre les entreprises conduirait à $V(\hat\gamma)$ comme:

$V(\hat \gamma) = H\Delta H'$ ou $V(\hat \gamma) = H\sigma^2I H' \equiv \sigma^2(Z'M_xZ)^{-1}$

qui, comme on peut le voir, ne sont pas égaux à la vraie.

— JDav
source

Avec des mots différents .. Je donne fondamentalement la même réponse que @mpiktas a donné

— JDav

(1) Vraiment fantastique. (2) On dirait que vous avez ignoré

D_{i} u_{i}

$D_i u_i$ quand vous avez exprimé le modèle sous forme matricielle? Cela ne devrait cependant rien changer à ce que vous avez fait. (3) Savez-vous pourquoi Portfolio OLS donne des SE correctes? (Voir l'article de 1986 que j'ai lié). Ne vous embêtez pas avec la réponse (3) si vous ne souhaitez pas résoudre ce problème.

(2) Je n'ai pas mis toutes les définitions pour en laisser un peu à l'intuition et pour éviter les produits kronecker ... de cette façon la démo va "plus vite". Mais vous pouvez déduire que le nouveau terme aléatoire est

ε_{i t} = D_{t} u_{i} + ϵ_{i t}

$\varepsilon_{it} = D_tu_i + \epsilon_{it}$ , cela signifie que si les entreprises étaient corrélées par

u_{i}

$u_i$ alors cela provoque le nouveau terme aléatoire

ε_{i t}

$\varepsilon_{it}$ être corrélé également sur la dimension de son entreprise. (3) n'a pas entendu parler d'un portefeuille OLS, mais je suppose que c'est juste un autre nom à quelque chose qui existe déjà dans l'économétrie standard à supprimer avec des matrices Var complètes, comme WLS, ou Robust OLS, etc.

— JDav

(3) une bonne estimation implique une bonne

Σ

$\Sigma$ estimation, le portefeuille OLS estime en quelque sorte la structure complète

Σ

$\Sigma$ et pas seulement des variances sans covariances:

Δ

$\Delta$ ou une seule variance:

σ^{2}

$\sigma^2$

— JDav

Je pense que la notation est inexacte, il utilise des scalaires où des vecteurs sont nécessaires pour se référer au fait que les covariances entre entreprises ne sont pas nulles, donc sa notation implique

ϵ_{i t} = [ϵ_{i t}]_{i = 1, . . ., N}

$\epsilon_{it} = [\epsilon_{it}]_{i=1,...,N}$ est un vecteur à N lignes. Une autre interprétation est qu'il se réfère à

i j

$ij$ élément de

ϵ_{. t}^{T} ϵ_{. t}

$\epsilon_{.t}^T\epsilon_{.t}$ . Dans les deux cas, il veut dire la même chose, mais comme ce n'est pas une revue quantitative, des ambiguïtés de notation mathématique se produisent ...

— JDav

Je mets une autre réponse avec plus de détails.

Dans le modèle de régression linéaire standard (sous forme matricielle):

Y = X β + ε

$Y=X\beta+\varepsilon$

l'estimation OLS est la suivante

\hat{β} = (X^{T} X)^{- 1} X^{T} Y .

$\hat\beta=(X^TX)^{-1}X^TY.$

Sa variance est alors

V a r (\hat{β}) = (X^{T} X)^{- 1} X^{T} V a r (Y) X (X^{T} X)^{- 1} .

$Var(\hat\beta)=(X^TX)^{-1}X^TVar(Y)X(X^TX)^{-1}.$

L'hypothèse habituelle de régression est que

V a r (Y) = σ^{2} I,

$Var(Y)=\sigma^2I,$

où $I$ est la matrice d'identité. alors

V a r (\hat{β}) = σ^{2} (X^{T} X)^{- 1} .

$Var(\hat\beta)=\sigma^2(X^TX)^{-1}.$

Maintenant, dans votre cas, vous avez deux modèles:

Y_{i} = M_{i} δ_{i} + ϵ_{i}

$Y_{i}=M_i\delta_i+\epsilon_i$

Γ = L c + u,

$\Gamma=Lc+u,$

où

$Y_i^T=(Y_{i1},...,Y_{iT})$ ,
$M_i=[1,X_i,D]$ , avec $X_i^T=(X_{i1},...,X_{iT})$ , $D^T=(D_1,...,D_T)$
$\delta_i^T=(\alpha_i,\beta_i,\gamma_i)$
$\epsilon_i^T=(\epsilon_{i1},...,\epsilon_{iT})$
$\Gamma^T=(\gamma_1,...,\gamma_n)$
$L=[1,Z]$ , avec $Z^T=(Z_1,...,Z_n)$
$c^T=(a,b)$
$u^T=(u_1,...,u_N)$ .

Notez que vous indiquez le deuxième modèle pour les estimations de $\gamma$ , ce qui n'est pas habituel, donc je le reformule sous une forme habituelle, pour le "vrai" $\gamma$ .

Écrivons la matrice de covariance pour les estimations de coefficients OLS $c$ :

V a r (\hat{c}) = (L^{T} L)^{- 1} L^{T} V a r (Γ) L (L^{T} L)^{- 1}

$Var(\hat{c})=(L^TL)^{-1}L^TVar(\Gamma)L(L^TL)^{-1}$

Le problème est que nous n'observons pas $\Gamma$ . Nous observons les estimations $\hat\Gamma$ . $\hat\gamma_i$ fait partie du vecteur

{\hat{δ}}_{i} = δ_{i} + (M_{i}^{T} M_{i})^{- 1} M_{i}^{T} ϵ_{i} .

$\hat\delta_i=\delta_i+(M_i^TM_i)^{-1}M_i^T\epsilon_i.$

Suppose que $\delta_i$ sont aléatoires et indépendants avec $\epsilon_i$ et $M_i$ . Cela vaut certainement pour $\gamma_i$ donc nous ne perdons rien si nous étendons cela pour d'autres éléments de $\delta_i$ .

Empilons tout $\hat\delta_i$ l'un sur l'autre:

{\hat{δ}}^{T} = [δ_{1}^{T}, . . ., δ_{N}^{T}]

$\hat\delta^T=[\delta_1^T,...,\delta_N^T]$

et explorer la variance de $\hat\delta$ :

V a r (\hat{δ}) = [\begin{matrix} V a r ({\hat{δ}}_{1}) & c o v ({\hat{δ}}_{1}, {\hat{δ}}_{2}) & \dots & c o v ({\hat{δ}}_{1}, {\hat{δ}}_{N}) \\ \dots & \dots & \dots & \dots \\ c o v ({\hat{δ}}_{n}, {\hat{δ}}_{1}) & c o v ({\hat{δ}}_{n}, δ_{2}) & \dots & V a r ({\hat{δ}}_{N}) \end{matrix}]

$Var(\hat\delta)=\begin{bmatrix} Var(\hat\delta_1) & cov(\hat\delta_1,\hat\delta_2) & \dots & cov(\hat\delta_1,\hat\delta_N)\\ \dots & \dots & \dots & \dots\\ cov(\hat\delta_n,\hat\delta_1) & cov(\hat\delta_n,\delta_2) & \dots & Var(\hat\delta_N) \end{bmatrix}$

Suppose que $Var(\epsilon_i)=\sigma^2_\epsilon I$ et cela $E\epsilon_i\epsilon_j^T=0$ . Pour $i\neq j$ on a

\begin{aligned} c o v ({\hat{δ}}_{i}, {\hat{δ}}_{j}) & = c o v (δ_{i}, δ_{j}) + c o v ((M_{i}^{T} M_{i})^{- 1} M_{i}^{T} ϵ_{i}, (M_{j}^{T} M_{j})^{- 1} M_{j}^{T} ϵ_{j}) \\ = (M_{i}^{T} M_{i})^{- 1} M_{i}^{T} E (ϵ_{i} ϵ_{j}^{T}) M_{j} (M_{j}^{T} M_{j})^{- 1} \\ = 0 \end{aligned}

$\begin{align} cov(\hat\delta_i,\hat\delta_j)&=cov(\delta_i,\delta_j)+cov((M_i^TM_i)^{-1}M_i^T\epsilon_i,(M_j^TM_j)^{-1}M_j^T\epsilon_j)\\ &=(M_i^TM_i)^{-1}M_i^TE(\epsilon_i\epsilon_j^T)M_j(M_j^TM_j)^{-1}\\ &=0 \end{align}$

Pour les éléments diagonaux, nous avons

V a r ({\hat{δ}}_{i}) = V a r (δ_{i}) + σ_{ϵ}^{2} (M_{i}^{T} M_{i})^{- 1}

$Var(\hat\delta_i)=Var(\delta_i)+\sigma_\epsilon^2(M_i^TM_i)^{-1}$

Revenons à la variance de $\hat c$ . Puisque nous substituons $\hat\Gamma$ au lieu de $\Gamma$ la variance est la suivante

V a r (\hat{c}) = (L^{T} L)^{- 1} L^{T} V a r (\hat{Γ}) L (L^{T} L)^{- 1},

$Var(\hat{c})=(L^TL)^{-1}L^TVar(\hat\Gamma)L(L^TL)^{-1},$

Nous pouvons extraire $Var(\hat\Gamma)$ de $Var(\hat\delta)$ en sélectionnant les éléments appropriés:

V a r (\hat{Γ}) = V a r (Γ) + d i a g (g_{1}, . . ., g_{n})

$Var(\hat\Gamma)=Var(\Gamma)+diag(g_1,...,g_n)$

où $g_i$ est l'élément de $\sigma_\epsilon^2(M_i^TM_i)^{-1}$ correspondant à la $Var(\hat\gamma_i)$ . Chaque $g_i$ est différent de $g_j$ car ils correspondent à différents $X_{it}$ et $X_{jt}$ qui ne sont pas supposés égaux.

Nous obtenons donc le résultat surprenant, que, algébriquement même si nous supposons toutes les propriétés nécessaires, la matrice de covariance résultante au moins algébriquement ne sera pas égale à la matrice de covariance OLS habituelle, car pour cela nous avons besoin de cela $Var(\hat\Gamma)$ est une matrice d'identité à temps constant, ce qui n'est clairement pas le cas.

Toutes les formules ci-dessus ont été dérivées en supposant que $X_{ij}$ sont constants, ils sont donc conditionnels à $X_{ij}$ . Cela signifie que nous avons calculé $Var(\hat\Gamma|X)$ . En mettant des hypothèses supplémentaires sur $X_{ij}$ , Je pense qu'il serait possible de montrer que la variance inconditionnelle est OK.

L'hypothèse d'indépendance placée sur $\epsilon_i$ peut également être relâché à décorrélation.

Il serait également possible d'utiliser une étude de simulation pour voir comment la matrice de covariance diffère si nous utilisons $\hat\Gamma$ au lieu de $\Gamma$ .

— mpiktas
source

Je pense que le problème réside dans la définition du deuxième modèle. Je pense que l'on suppose que

γ_{i} = a + b Z_{i} + u_{i}

$\gamma_i=a+bZ_i+u_i$

avec l'hypothèse habituelle que

c o v (γ_{i}, γ_{j} | Z_{1}, . . ., Z_{N}) = 0,

$cov(\gamma_i,\gamma_j|Z_1,...,Z_N)=0,$

c'est-à-dire que le $\gamma_i$ ne sont pas corrélés si nous contrôlons $Z_i$ . Maintenant, lorsque vous remplacez $\hat{\gamma}$ au lieu de $\gamma$ , vous devez vérifier si l'hypothèse est vraie, c'est-à-dire si

c o v (\hat{γ_{i}}, {\hat{γ}}_{j} | Z_{i}) = 0.

$cov(\hat{\gamma_i},\hat{\gamma}_j|Z_i)=0.$

Maintenant

{\hat{γ}}_{i} = γ_{i} + L (ϵ_{i t}),

$\hat{\gamma}_i=\gamma_i+L(\epsilon_{it}),$

où $L$ est une fonction linéaire. Il est sûr de supposer que $\epsilon_{it}$ est indépendant de $Z_i$ , mais si $E\epsilon_{it}\epsilon_{jt}\neq0$ , l'hypothèse nécessaire ne tient pas.

Étant donné que l'hypothèse de non-corrélation est au cœur du calcul des statistiques OLS habituelles, cela donne la raison pour laquelle les erreurs standard sont biaisées.

C'était un aperçu, mais je pense que l'idée devrait fonctionner si vous voulez entrer dans les moindres détails des machines OLS.

— mpiktas
source