Je connais LASSO, la régularisation de type crête et filet élastique dans les modèles de régression linéaire.

Question:

Ce type d'estimation pénalisée (ou similaire) peut-il être appliqué à la modélisation ARIMA (avec une partie MA non vide)?

Dans la construction de modèles ARIMA, il semble habituel de considérer un ordre de décalage maximum présélectionné ( , ) puis de choisir un ordre optimal et par exemple en minimisant AIC ou AICc. Mais la régularisation pourrait-elle être utilisée à la place? $p_{max}$ $q_{max}$ $p \leqslant p_{max}$ $q \leqslant q_{max}$

Mes autres questions sont les suivantes:

Pourrions-nous inclure tous les termes jusqu'à ( $p_{max}$ , $q_{max}$ ) mais pénaliser la taille des coefficients (potentiellement jusqu'à zéro)? Serait-ce logique?
Si c'est le cas, cela a-t-il été implémenté dans R ou dans un autre logiciel? Sinon, quel était le problème?

Un article quelque peu lié peut être trouvé ici .

— Richard Hardy
source

+1 pour une très bonne question. Puisque P, Q sont des valeurs discrètes, il peut être plus efficace de faire une recherche dans la grille pour trouver l'ordre optimal de P, Q?

— prévisionniste

Je suis content que cela t'aie plu! Oui, une recherche dans la grille est l'une des options du cadre que j'appelle "l'habituelle". Là, on peut rechercher sur une grille de combinaisons possibles de

(p, q)

$(p,q)$ de

(0, 0)

$(0,0)$ à

(p_{m a x}, q_{m a x})

$(p_{max},q_{max})$ . Cependant, cela fait toujours partie du "cadre habituel". Comme alternative, je souhaite conserver tous les décalages mais pénaliser la taille des coefficients.

— Richard Hardy

columbia.edu/~sn2294/papers/forecast.pdf Soi-disant LASSO fonctionne mieux car vous pouvez ignorer certains décalages au lieu de mettre un maximum. La même chose peut être faite par AIC mais cela devient coûteux en calcul.

— Cagdas Ozgenc

@CagdasOzgenc, j'ai parcouru le document mais il ne semble pas qu'il s'agisse de régularisation appliquée aux modèles ARIMA (bien qu'il mentionne les modèles ARMA dans le contexte des critères d'information). Pourriez-vous indiquer quelle partie du document est pertinente pour mes questions?

— Richard Hardy

5.3 le tableau contient les modèles ARMAX. Les résultats s'appliquent aux modèles ARMA.

— Cagdas Ozgenc

Répondre à la question 1.

Chen & Chan «Subset ARMA selection via the adaptive Lasso» (2011) * utilisent une solution de contournement pour éviter l'estimation de la probabilité maximale de calcul exigeante. Citant le papier, ils

proposent de trouver un modèle ARMA de sous-ensemble optimal en ajustant une régression adaptative de Lasso de la série sur ses propres retards et ceux des résidus qui sont obtenus en ajustant une autorégression longue aux s. <...> [U] ndans des conditions de régularité douces, la méthode proposée obtient les propriétés oracle, à savoir, elle identifie le modèle de sous-ensemble ARMA correct avec une probabilité tendant à un lorsque la taille de l'échantillon augmente à l'infini, et <...> le les estimateurs des coefficients non nuls sont asymptotiquement normaux avec la distribution limite la même que celle lorsque les coefficients nuls sont connus a priori. $y_t$ $y_t$

Facultativement, ils suggèrent une estimation du maximum de vraisemblance et des diagnostics de modèle pour le ou les modèles ARMA du sous-ensemble sélectionné.

Wilms et al. «Identification et estimation clairsemées de moyennes mobiles auto-régressives vectorielles de grande dimension» (2017) font encore plus que ce que je demandais. Au lieu d'un modèle ARIMA univarié, ils prennent un vecteur ARMA (VARMA) dans des dimensions élevées, et ils utilisent une pénalité pour l'estimation et la sélection de l'ordre de décalage. Ils présentent l'algorithme d'estimation et développent des résultats asymptotiques. $L_1$

En particulier, ils utilisent une procédure en deux étapes. Considérons un modèle qui doit être estimé, mais le décalage les ordres et sont inconnus.

y_{t} = \sum_{l = 1}^{p} Φ_{l} y_{t - l} + \sum_{m = 1}^{q} Θ_{m} ε_{t - m} + ε_{t}

$y_t = \sum_{l=1}^p \Phi_l y_{t-l} + \sum_{m=1}^q \Theta_m \varepsilon_{t-m} + \varepsilon_t$

p

$p$

q

$q$

À l'étape 1, ils approximent le modèle VARMA par un modèle VAR d'ordre élevé et l'estiment à l'aide d'un estimateur hiérarchique VAR qui applique une pénalité de lasso de groupe hiérarchique basée sur le décalage aux paramètres autorégressifs.
(L'ordre de décalage est défini sur . Les équations du modèle sont estimées conjointement et la norme Frobenius des erreurs est minimisée avec un groupe hiérarchique -lasso sur les coefficients de régression.) Ils obtiennent des résidus à utiliser comme proxy pour les vraies erreurs de l'étape 2. $\lfloor 1.5\sqrt{T} \rfloor$ $||y-\hat y||_2^F$
$\hat\varepsilon := y - \hat y$
À l'étape 2, ils estiment un modèle VARX où X représente les résidus décalés de l'étape 1. Autrement dit, ils minent un modèle VARMA mais utilisent des résidus estimés à la place des vraies erreurs, ce qui permet d'appliquer à nouveau le même estimateur (groupe-lasso hiérarchique) comme dans Stage 1. ( et sont définis comme .)
$y_{t} = \sum_{l = 1}^{\hat{p}} Φ_{l} y_{t - l} + \sum_{m = 1}^{\hat{q}} Θ_{m} {\hat{ε}}_{t - m} + u_{t},$ $y_t = \sum_{l=1}^{\hat p} \Phi_l y_{t-l} + \sum_{m=1}^{\hat q} \Theta_m \hat\varepsilon_{t-m} + u_t,$
$\hat p$ $\hat q$ $\lfloor 1.5\sqrt{T} \rfloor$

L'approche de Wilms et al. est implémenté dans le package R "bigtime" .

Les références

Chen, K. et Chan, KS (2011). Sous-ensemble de sélection ARMA via le Lasso adaptatif. Statistiques et son interface , 4 (2), 197-205.
Wilms, I., Basu, S., Bien, J., et Matteson, DS (2017). Identification et estimation clairsemées de moyennes mobiles auto-régressives vectorielles de grande dimension. arXiv preprint arXiv: 1707.09208.

^{* Merci à @hejseb pour le lien.}

— Richard Hardy
source

Ce document de travail est très récent, publié sur arXiv hier.

— Richard Hardy

Existe-t-il une implémentation en python ou R?

— David Masip

@DavidMasip, consultez la publication mise à jour pour une implémentation R.

— Richard Hardy

Régularisation pour les modèles ARIMA

Répondre à la question 1.