Différence entre la moyenne des données puis l'ajustement et l'ajustement des données puis la moyenne

Le cas échéant, entre l'ajustement d'une ligne à plusieurs "expériences" distinctes, puis la moyenne des ajustements, ou la moyenne des données des expériences distinctes, puis l'ajustement des données moyennes. Permettez-moi d'expliquer:

J'effectue des simulations informatiques qui génèrent une courbe, illustrée ci-dessous. Nous extrayons une quantité, appelons-la "A" en ajustant la région linéaire du tracé (longs temps). La valeur est simplement la pente de la région linéaire. Il y a bien sûr une erreur associée à cette régression linéaire.

Nous exécutons généralement une centaine de ces simulations avec différentes conditions initiales pour calculer une valeur moyenne de "A". On m'a dit qu'il valait mieux faire la moyenne des données brutes (de l'intrigue ci-dessous) en groupes de disons 10, puis ajuster pour "A" et faire la moyenne de ces 10 "A" ensemble.

Je n'ai aucune intuition pour savoir s'il y a un quelconque mérite à cela ou s'il vaut mieux que d'ajuster 100 valeurs individuelles "A" et d'en faire la moyenne.

error fitting average

— pragmatiste1
source

Je ne suis pas sûr de comprendre: vous mesurez A à différents moments et puis vous estimez ? Ensuite, vous faites cela plusieurs fois et vous prenez la moyenne de tous les ?

A = β_{0} + β_{1} t

$A= \beta_0 +\beta_1 t$

β_{1}

$\beta_1$

Non désolé. L'intrigue ci-dessus est le résultat d'une seule simulation (appelons cela une expérience). La région non linéaire initiale est rejetée, nous ajustons ensuite une ligne à la partie linéaire et obtenons la pente, "A". Ainsi, une simulation entière donne une seule estimation de "A". Bien sûr, ma question tourne autour de la question de savoir si la moyenne de plusieurs parcelles puis le calcul de A est différente de simplement calculer A pour un tas de parcelles et leur moyenne. J'espère que cela clarifie.

— pragmatist1

Je ne vois pas pourquoi cela ferait une différence? (si les hypothèses de régression linéaire sont remplies)

Je suppose que l'ajustement ne va jamais mal / ne converge pas / ne donne pas d'estimations ridiculement raides en raison des expériences chacune étant petite? Ce serait quelque chose que la combinaison des premiers (ou des modèles hiérarchiques) pourrait aider.

— Björn

Vous pouvez également assembler toutes les données, mais inclure une sorte de composant pour différencier les expériences (interceptions différentes pour chaque expérience, ou même pentes différentes), quelque chose comme une approche de modèle mixte linéaire. De cette façon, vous pouvez approximer une pente globale, mais vous pourriez identifier les effets ou les différences "par lots" entre les expériences

— bdeonovic

Réponses:

Imaginez que nous sommes dans un contexte de données de panel où il y a des variations dans le temps et entre les entreprises . Considérez chaque période comme une expérience distincte. Je comprends votre question comme si elle est équivalente à estimer un effet en utilisant: $t$ $i$ $t$

Variation transversale des moyennes des séries chronologiques.
Moyennes des séries chronologiques de la variation transversale.

La réponse est en général non.

La mise en place:

Dans ma formulation, nous pouvons considérer chaque période comme une expérience distincte. $t$

Disons que vous avez un panel équilibré de longueur sur entreprises. Si nous séparons chaque période etc ... nous pouvons écrire les données globales comme: $T$ $n$ $(X_t, \mathbf{y}_t)$

Y = [\begin{matrix} y_{1} \\ y_{2} \\ \dots \\ y_{n} \end{matrix}] X = [\begin{matrix} X_{1} \\ X_{2} \\ \dots \\ X_{n} \end{matrix}]

$Y = \begin{bmatrix} \mathbf{y}_1 \\ \mathbf{y}_2 \\ \ldots \\ \mathbf{y}_n \end{bmatrix} \quad \quad X = \begin{bmatrix} X_1 \\ X_2 \\ \ldots \\ X_n \end{bmatrix}$

Moyenne des ajustements:

\begin{aligned} \frac{1}{T} \sum_{t} b_{t} & = \frac{1}{T} \sum_{t} {(X_{t}^{'} X_{t})}^{- 1} X_{t}^{'} y_{t} \\ = \frac{1}{T} \sum_{t} S_{t}^{- 1} (\frac{1}{n} \sum_{i} x_{t, i} y_{t, i}) where S_{t} = \frac{1}{n} \sum_{i} x_{t, i} x_{t, i}^{'} \end{aligned}

$\begin{align*} \frac{1}{T} \sum_t \mathbf{b}_t &= \frac{1}{T} \sum_t \left(X_t'X_t \right)^{-1} X_t' \mathbf{y}_t \\ &= \frac{1}{T} \sum_t S^{-1}_t \left( \frac{1}{n} \sum_i \mathbf{x}_{t,i} y_{t,i}\right) \quad \text{where } S_t = \frac{1}{n} \sum_i \mathbf{x}_{t,i} \mathbf{x}_{t,i}' \end{align*}$

Ajustement des moyennes:

Ce n'est généralement pas égal à l'estimation basée sur la variation transversale des moyennes des séries chronologiques (c'est-à-dire l'estimateur entre).

{(\frac{1}{n} \sum_{i} {\bar{x}}_{i} {\bar{x}}_{i}^{'})}^{- 1} \frac{1}{n} \sum_{i} {\bar{x}}_{i} {\bar{y}}_{i}

$\left( \frac{1}{n} \sum_i \bar{\mathbf{x}}_i \bar{\mathbf{x}}_i' \right)^{-1} \frac{1}{n} \sum_i \bar{\mathbf{x}}_i \bar{y}_i$

Où etc ... $\bar{\mathbf{x}}_i = \frac{1}{T} \sum_t \mathbf{x}_{t, i}$

Estimation OLS groupée:

Il est peut-être utile de réfléchir à l'estimation de l'OLS groupé. Qu'Est-ce que c'est? Ensuite, utilisez

\begin{aligned} \hat{b} & = {(X^{'} X)}^{- 1} X^{'} Y \\ = {(\frac{1}{n T} \sum_{t} X_{t}^{'} X_{t})}^{- 1} (\frac{1}{n T} \sum_{t} X_{t}^{'} y_{i}) \end{aligned}

$\begin{align*} \hat{\mathbf{b}} &= \left(X'X\right)^{-1}X'Y \\ &= \left( \frac{1}{nT} \sum_t X_t'X_t \right)^{-1} \left( \frac{1}{nT} \sum_t X_t' \mathbf{y}_i \right) \end{align*}$

b_{t} = {(X_{t}^{'} X_{t})}^{- 1} X_{t}^{'} y_{i}

$\mathbf{b}_t = \left(X_t'X_t \right)^{-1}X_t' \mathbf{y}_i$

\begin{aligned} = {(\frac{1}{n T} \sum_{t} X_{t}^{'} X_{t})}^{- 1} (\frac{1}{n T} \sum_{t} X_{t}^{'} X_{t} b_{t}) \end{aligned}

$\begin{align*} &= \left( \frac{1}{nT} \sum_t X_t'X_t \right)^{-1} \left( \frac{1}{nT} \sum_t X_t'X_t \mathbf{b}_t \right) \end{align*}$

Soit et nos estimations de sur l'échantillon complet et sur la période respectivement. Ensuite nous avons: $S = \frac{1}{nT} \sum_i X'X$ $S_t = \frac{1}{n} X_t'X_t$ $\operatorname{E}[\mathbf{x}\mathbf{x}']$ $t$

\begin{aligned} \hat{b} & = \frac{1}{T} \sum_{t} (S^{- 1} S_{t}) b_{t} \end{aligned}

$\begin{align*} \hat{\mathbf{b}} &= \frac{1}{T} \sum_t \left( S^{-1} S_t \right) \mathbf{b}_t \end{align*}$

C'est un peu comme une moyenne des différentes estimations temporelles , mais c'est un peu différent. Dans un certain sens, vous donnez plus de poids aux périodes avec une variance plus élevée des variables de droite. $\mathbf{b}_t$

Cas particulier: les variables de droite sont invariables dans le temps et spécifiques à l'entreprise

Si les variables de droite pour chaque entreprise sont constantes dans le temps (c'est-à-dire pour tout et ), alors pour tout et nous aurions: $i$ $X_{t_1} = X_{t_2}$ $t_1$ $t_2$ $S = S_t$ $t$

\hat{b} = \frac{1}{T} \sum_{t} b_{t}

$\hat{\mathbf{b}} = \frac{1}{T} \sum_t \mathbf{b}_t$

Commentaire amusant:

C'est le cas de Fama et Macbeth où, lorsqu'ils ont appliqué cette technique de moyenne des estimations transversales pour obtenir des erreurs types cohérentes lors de l'estimation de la variation des rendements attendus avec la covariance des entreprises avec le marché (ou d'autres facteurs de pondération).

La procédure Fama-Macbeth est un moyen intuitif d'obtenir des erreurs standard cohérentes dans le contexte du panneau lorsque les termes d'erreur sont corrélés transversalement mais indépendamment dans le temps. Une technique plus moderne qui donne des résultats similaires est le regroupement à temps.

— Matthew Gunn
source

(Remarque: je n'ai pas assez de réputation pour commenter, alors je poste ceci comme réponse.)

Pour la question particulière posée, la réponse de fcop est correcte: l'ajustement de la moyenne équivaut à la moyenne des ajustements (au moins pour les moindres carrés linéaires). Cependant, il convient de mentionner que l'une ou l'autre de ces approches «en ligne » naïves peut donner des résultats biaisés, par rapport à l'ajustement de toutes les données à la fois. Comme les deux sont équivalents, je me concentrerai sur l'approche "fit the average". Essentiellement, l' ajustement des courbes moyennes ignore l' incertitude relative à des valeurs comprises entre différents points. Par exemple, si , et , alors $\bar{y}[x]=\langle y[x]\rangle$ $y$ $x$ $y_1[x_1]=y_2[x_1]=2$ $y_1[x_2]=1$ $y_1[x_2]=3$ $\bar{y}[x_1]=\bar{y}[x_2]=2$ , mais tout ajustement de courbe devrait se soucier beaucoup plus de l'inadéquation à par rapport à . $x_1$ $x_2$

Notez que la plupart des plates-formes logicielles scientifiques devraient disposer d'outils pour calculer / mettre à jour un véritable ajustement des moindres carrés "en ligne" (appelés moindres carrés récursifs ). Ainsi, toutes les données peuvent être utilisées (si cela est souhaitable).

— GeoMatt22
source

La réponse publiée par fcop a été supprimée. Vous voudrez peut-être modifier légèrement votre réponse

— Glen_b -Reinstate Monica