Utilisation de filtres de Kalman pour imputer des valeurs manquantes dans des séries chronologiques

12

Je suis intéressé par la façon dont les filtres de Kalman peuvent être utilisés pour imputer des valeurs manquantes dans les données de séries temporelles. Est-il également applicable si certains points temporels consécutifs sont manquants? Je ne trouve pas grand-chose sur ce sujet. Toutes explications, commentaires et liens sont les bienvenus et appréciés!

data-imputation kalman-filter

— GS9
source

Vous pourriez être intéressé par cet article . Il donne un exemple basé sur la représentation en espace d'états d'un modèle ARIMA pour imputer des valeurs manquantes au moyen du filtre de Kalman.

— javlacalle

@javlacalle merci, je connaissais déjà ce post et c'est un excellent exemple pour une implémentation concrète. Mais je suis plutôt intéressé par le contexte théorique.

— GS9

9

Préliminaires: filtrage de Kalman :

Les filtres de Kalman fonctionnent sur des modèles d'espace d'état de la forme (il existe plusieurs façons de l'écrire; c'est une méthode simple basée sur Durbin et Koopman (2012) ; tout ce qui suit est basé sur ce livre, ce qui est excellent):

\begin{aligned} y_{t} & = Z α_{t} + ε_{t} & ε_{t} \sim N (0, H) \\ α_{t_{1}} & = T α_{t} + η_{t} & η_{t} \sim N (0, Q) \\ α_{1} & \sim N (a_{1}, P_{1}) \end{aligned}

$\begin{align} y_t & = Z \alpha_t + \varepsilon_t \qquad & \varepsilon_t \sim N(0, H) \\ \alpha_{t_1} & = T \alpha_t + \eta_t & \eta_t \sim N(0, Q) \\ \alpha_1 & \sim N(a_1, P_1) \end{align}$

où est la série observée (éventuellement avec des valeurs manquantes) mais est totalement inobservé. La première équation (l'équation de "mesure") dit que les données observées sont liées aux états non observés d'une manière particulière. La deuxième équation (l'équation de "transition") dit que les états non observés évoluent dans le temps d'une manière particulière. $y_t$ $\alpha_t$

Le filtre de Kalman fonctionne pour trouver des estimations optimales de ( est supposé être Normal: , donc ce que fait réellement le filtre de Kalman est de calculer la moyenne conditionnelle et la variance de la distribution pour conditionnel aux observations jusqu'au temps ). $\alpha_t$ $\alpha_t$ $\alpha_t \sim N(a_t, P_t)$ $\alpha_t$ $t$

Dans le cas typique (lorsque des observations sont disponibles), le filtre de Kalman utilise l'estimation de l'état actuel et l'observation actuelle pour faire de son mieux pour estimer l'état suivant , comme suit: $y_t$ $\alpha_{t+1}$

\begin{aligned} a_{t + 1} & = T a_{t} + K_{t} (y_{t} - Z α_{t}) \\ P_{t + 1} & = T P_{t} (T - K_{t} Z)^{'} + Q \end{aligned}

$\begin{align} a_{t+1} & = T a_t + K_t (y_t - Z \alpha_t) \\ P_{t+1} & = T P_t (T - K_t Z)' + Q \end{align}$

où est le "gain de Kalman". $K_t$

$a_{t+1}$ $P_{t+1}$ $y_t$ $y_t$

\begin{aligned} a_{t + 1} & = T a_{t} \\ P_{t + 1} & = T P_{t} T^{'} + Q \end{aligned}

$\begin{align} a_{t+1} & = T a_t \\ P_{t+1} & = T P_t T' + Q \end{align}$

$\alpha_t$ $\alpha_{t+1}$

$y_t$

Imputation de données :

$a_t, P_t$ $t = 1, 2, \dots, T$

{\hat{y}}_{t} = Z a_{t}

$\hat y_t = Z a_t$

Quant à une référence, Durbin et Koopman (2012) est excellent; la section 4.10 traite des observations manquantes.

Durbin, J. et Koopman, SJ (2012). Analyse des séries chronologiques par les méthodes de l'espace d'état (n ° 38). Oxford University Press.

— cfulton
source

L'utilisation d'une solution plus fluide aurait plus de sens pour l'imputation (puisqu'on a déjà toutes les données (non manquantes), pourquoi ne pas utiliser les informations dans les valeurs futures également)

— Juho Kokkala

0

L'exemple dans la publication que javlacalle pointe dans son commentaire présente des points temporels manquants consécutifs. Vous pourriez également être intéressé par les intervalles autour des valeurs imputées (prévues dans l'échantillon), dont le calcul apparaît dans cet article sur l'espace d'état , à la section 2.1.

Un autre document qui pourrait être intéressant est celui-ci .

— Wayne
source