Justification de l'utilisation des poids géométriques dans la régression linéaire

Dans l'application pratique, j'ai souvent été témoin de la pratique suivante. On observe une paire dans le temps. Dans l'hypothèse où ils sont liés linéairement, nous régressons l'un contre l'autre en utilisant des poids géométriques plutôt que des poids uniformes, c'est-à-dire que l'OLS minimise pour certains . C'est très intuitif: nous pondérons moins d'observations loin dans le passé. Comparé à un système de pondération «wagon couvert», il présente également l'avantage de produire des estimations qui évoluent en douceur dans le temps, car les observations ne tombent pas brutalement hors de la fenêtre d'observation. Cependant, je me demande s'il existe un modèle probabiliste sous-jacent à la relation entre et $(x_t, y_t)$

\sum_{t = 0}^{\infty} k^{t} (y_{T - t} - a x_{T - t} - b)^{2}

$\sum_{t=0}^\infty k^{t} (y_{T-t}- a x_{T-t}-b)^2$

k \in (0, 1)

$k\in (0,1)$

x_{t}

$x_t$

y_{t}

$y_t$ qui justifie ce choix.

regression least-squares

— gappy
source

L'autre jour, quelqu'un quelque part sur l'un des sites StackExchange associés commentait ce schéma comme étant le "filtre de Kalman du pauvre". Si je parviens à dénicher le lien, je l'ajouterai ici.

— Dirk Eddelbuettel

Merci. J'aimerais voir comment cela peut être recadré comme un filtre de Kalman.

— gappy

Je doute qu'il y ait une dérivation formelle, d'où les citations autour de la version du pauvre de paramètres adaptatifs.

— Dirk Eddelbuettel

Réponses:

"Lié de façon linéaire" signifie généralement

y_{t} = a x_{t} + b + ε_{t}

$y_t = a x_t + b + \varepsilon_t$

pour la constante , et IId erreurs aléatoires , . Une raison pour laquelle on ferait une estimation OLS pondérée exponentiellement est le soupçon que et pourraient eux-mêmes varier (lentement) avec le temps. Ainsi, nous pensons vraiment que le bon modèle est $a$ $b$ $\varepsilon_t$ $t=0,1,\ldots,T$ $a$ $b$

y_{t} = α (t) x_{t} + β (t) + ε_{t}

$y_t = \alpha(t) x_t + \beta(t) + \varepsilon_t$

pour les fonctions inconnues et qui varient lentement (voire pas du tout) dans le temps et nous souhaitons estimer leurs valeurs actuelles, et . Supposons que ces fonctions soient lisses, afin que nous puissions appliquer le théorème de Taylor. Cela affirme que $\alpha(t)$ $\beta(t)$ $a = \alpha_T$ $b = \beta_T$

α (t) = α (T) + α^{'} (t_{α, t}) (t - T)

$\alpha(t) = \alpha(T) + \alpha'(t_{\alpha,t})(t-T)$

pour certains , et de même pour . Nous considérons et comme les valeurs les plus récentes, et , respectivement. Utilisez-le pour ré-exprimer les résidus: $t_{\alpha,t}, 0 \le t_{\alpha,t} \lt T$ $\beta(t)$ $a$ $b$ $\alpha_T$ $\beta_T$

y_{t} - (a x_{t} + b) = α^{'} (t_{α, t}) (t - T) x_{t} + β^{'} (t_{β, t}) (t - T) + ε_{t} .

$y_t - (a x_t + b) = \alpha'(t_{\alpha,t})(t-T)x_t + \beta'(t_{\beta,t})(t-T) + \varepsilon_t\text{.}$

Maintenant, de nombreux mouvements de la main doivent se produire. Nous considérerons que tout le côté droit est aléatoire. Sa variance est celle de plus fois la variance de plus fois la variance de . Ces deux variances sont complètement inconnues, mais ( abracadabra ) considérons-les comme résultant d'une sorte de processus (stochastique) dans lequel des "erreurs" ou "variations" éventuellement systématiques (non aléatoires, mais encore inconnues) s'accumulent d'une L'autre. Cela suggérerait une exponentielle $\varepsilon_t$ $x_t^2(t-T)^2$ $\alpha'(t_{\alpha,t})$ $(t-T)^2$ $\beta'(t_{\beta,t})$ changement de ces écarts au fil du temps. Maintenant, simplifiez simplement l'expression explicite (mais essentiellement inutile) pour le côté droit, et les termes quadratiques dans l'exponentielle (puisque nous agitons nos mains si follement de toute façon), pour obtenir $(t-T)^2$

y_{t} - (a x_{t} + b) = δ_{t}

$y_t - (a x_t + b) = \delta_t$

avec la variance de égale à pour une constante . Ignorer les corrélations temporelles possibles entre les et supposer qu'ils ont des distributions normales donne une probabilité logarithmique pour les données proportionnelles à $\delta_t$ $\exp(\kappa(t-T))$ $\kappa$ $\delta_t$

\sum_{t = 0}^{T} k^{- t} (y_{T - t} - a x_{T - t} - b)^{2}

$\sum_{t=0}^{T} k^{-t} (y_{T-t}- a x_{T-t}-b)^2$

(plus une constante non pertinente ne dépendant que de ) avec . La procédure OLS pondérée exponentiellement maximise donc la vraisemblance, en supposant que nous connaissons la valeur de (un peu comme une procédure de vraisemblance de profil). $k$ $k = \exp{\kappa}$ $k$

Bien que toute cette dérivation soit clairement fantaisiste, elle montre comment et approximativement dans quelle mesure la pondération exponentielle tente de faire face à d'éventuels changements des paramètres linéaires au fil du temps. Il relie le paramètre au taux de changement temporel de ces paramètres. $k$

— whuber
source

Je suis d'accord sur la partie agitant la main ... Je suis d'accord avec la simplification des hypothèses sur la forme variable dans le temps des paramètres de régression, tant qu'ils sont clairement énoncés. Bien sûr, n'hésitez pas à consulter la littérature existante.

— gappy

@whuber - Je dirais que la régression exponentiellement pondérée est une approximation très grossière pour le modèle particulier que vous avez décrit . Mais cela pourrait bien être une solution exacte à un modèle différent. Pour le modèle que vous décrivez, il serait préférable d'inclure la composante hétéroscédastique en raison de la variation de (ou supposez qu'elle n'a pas de variation, et vous avez affaire à une interception aléatoire). Vous donnez l'impression que la pondération géométrique est toujours sous-optimale, ce qui ne l'est pas. Cela dépend de vos informations préalables.

α (t)

$\alpha(t)$

— probabilités

@prob Je suis d'accord, mais je n'ai pas été en mesure de trouver un modèle qui justifie exactement cette approche, j'ai donc dû me contenter de souligner certaines des choses qu'un tel modèle pourrait impliquer. Je constate que votre réponse ne fait aucun progrès dans ce sens non plus ;-).

— whuber

@whuber - et où dois-je faire une approximation dans mon équation pour qu'elle ne soit pas exacte?

— probabilitéislogic

@probabilité Vous ne fournissez aucune justification: vous annoncez simplement le résultat que j'avais déjà publié. En d'autres termes, vous observez que lorsque OLS minimise une telle expression, il fait vraiment des moindres carrés pondérés. D'accord, mais n'est-ce pas parfaitement évident? Qu'est-ce qui justifie ce choix de poids? D'où viennent-ils?

— whuber

Je pense que vous voulez dire en fait comme votre poids, ou que . Si et nous prenons comme poids alors . Donc, cela pèse en fait le moins sur la présente observation. Par exemple, si nous prenons alors , etc. $k^{t}$ $k>1$ $0<k<1$ $k^{-t}$ $k^{-\infty}=\infty$ $k=0.5$ $k^{0}=1,\;k^{-1}=2,\;k^{-2}=4,\dots,k^{-20}\approx 10^{6}$

Ceci indique simplement quelque chose que vous savez sur la façon dont la variance change avec chaque observation (elle s'agrandit à mesure que vous avancez dans le temps à partir du temps ): $T$

(y_{T - t} | x_{T - t}, a, b, k, s) \sim N o r m a l (a x_{T - t} + b, s^{2} k^{- t})

$(y_{T-t}|x_{T-t},a,b,k,s) \sim Normal(ax_{T-t}+b,s^{2}k^{-t})$

Indiquant et nous avons une probabilité logarithmique commune de: $Y\equiv\{y_{T},y_{T-1},\dots,y_{1}\}$ $X\equiv\{x_{T},x_{T-1},\dots,x_{1}\}$

\log [p (Y | X, a, b, k, s)] = - \frac{1}{2} (T \log (2 π s^{2} k^{- t}) + \sum_{t = 0}^{T - 1} \frac{(y_{T - t} - a x_{T - t} - b)^{2}}{s^{2} k^{- t}})

$\log\left[p(Y|X,a,b,k,s)\right]=-\frac{1}{2}\left(T\log(2\pi s^{2} k^{-t})+\sum_{t=0}^{T-1}\frac{(y_{T-t}-ax_{T-t}-b)^{2}}{s^{2}k^{-t}}\right)$

Donc, pour obtenir les estimations de vraisemblance maximale de et vous avez la fonction objectif suivante: $a$ $b$

\sum_{t = 0}^{T - 1} k^{t} (y_{T - t} - a x_{T - t} - b)^{2}

$\sum_{t=0}^{T-1}k^{t}(y_{T-t}-ax_{T-t}-b)^{2}$

Quel est celui que vous recherchez

— probabilitéislogique
source