Lasso-ing l'ordre d'un décalage?

9

Supposons que j'ai des données longitudinales de la forme (j'ai plusieurs observations, ce n'est que la forme d'une seule). Je suis intéressé par les restrictions sur . Un sans restriction équivaut à prendre avec . $\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)$ $\Sigma$ $\Sigma$

Y_{j} = α_{j} + \sum_{ℓ = 1}^{j - 1} ϕ_{ℓ j} Y_{j - ℓ} + ε_{j}

$Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j$

ε_{j} \sim N (0, σ_{j})

$\varepsilon_j \sim N(0, \sigma_j)$

Cela n'est généralement pas fait car cela nécessite d'estimer les paramètres de covariance . Un modèle est "lag- " si nous prenons c'est-à dire que nous utilisons uniquement le précédent termes pour prédire partir de l'historique. $O(J^2)$ $k$

Y_{j} = α_{j} + \sum_{ℓ = 1}^{k} ϕ_{ℓ j} Y_{j - ℓ} + ε_{j},

$Y_j = \alpha_j + \sum_{\ell = 1} ^ k \phi_{\ell j} Y_{j - \ell} + \varepsilon_j,$

k

$k$

Y_{j}

$Y_j$

Ce que j'aimerais vraiment faire, c'est utiliser une sorte d'idée de rétrécissement pour éliminer certains des , comme le LASSO. Mais la chose est, je voudrais aussi la méthode que j'utilise pour préférer les modèles qui sont lag- pour certains ; J'aimerais pénaliser davantage les décalages d'ordre supérieur que les décalages d'ordre inférieur. Je pense que c'est quelque chose que nous aimerions particulièrement faire étant donné que les prédicteurs sont fortement corrélés. $\phi_{\ell j}$ $k$ $k$

Un problème supplémentaire est que si (par exemple) est réduit à je voudrais également que soit réduit à , c'est-à-dire que le même décalage est utilisé dans toutes les distributions conditionnelles. $\phi_{35}$ $0$ $\phi_{36}$ $0$

Je pourrais spéculer là-dessus, mais je ne veux pas réinventer la roue. Existe-t-il des techniques LASSO conçues pour résoudre ce type de problème? Suis-je mieux de simplement faire autre chose, comme l'inclusion progressive des ordres de retard? Étant donné que mon espace modèle est petit, je pourrais même utiliser une pénalité sur ce problème, je suppose? $L_0$

feature-selection lasso shrinkage

— gars
source

2

Vous pouvez effectuer une validation croisée à plusieurs reprises de k = 0 à quel que soit le maximum et tracer les performances par rapport à k. Étant donné que le modèle est testé sur des données qu'il n'avait pas vues auparavant, il n'y a aucune garantie que les modèles complexes fonctionneront mieux, et en effet, vous devriez voir une dégradation des performances si le modèle devient trop complexe en raison d'un sur-ajustement. Personnellement, je pense que c'est plus sûr et plus facile à justifier que d'avoir un facteur de pénalité arbitraire, mais votre kilométrage peut varier.

Je ne comprends pas non plus vraiment comment Lasso ordonné répond à la question. Cela semble trop restrictif, cela oblige complètement à ordonner les coefficients. Alors que la question d'origine peut se retrouver pour certaines données ayant une solution où ne diminue pas strictement avec l. $\phi_{lj}$

— Nir Friedman
source

Pour ajouter LaTeX à votre question, placez l'expression entre les signes dollar ($).

— Patrick Coulombe

1

Y_{j - 2}

$Y_{j-2}$

Y_{j}

$Y_j$

Y_{j - 1}

$Y_{j-1}$

(2) En général, je n'utiliserais pas cette stratégie de CV au moins partiellement parce qu'elle est trop dogmatique. Je peux obtenir de meilleures prévisions en réduisant judicieusement un décalage, plutôt qu'en le rejetant entièrement.

— gars

Nir, un commentaire utile sur le LASSO commandé. J'ai modifié ma réponse pour être un peu plus complète. Merci!

— Sean Easter

Merci Sean. Guy, je ne pense pas que ce soit trop dogmatique. Vous ne mettez pas ak dans la pierre, mais laissez plutôt varier. Le k qu'il choisira sera au début du surajustement. Je suis également fortement en désaccord avec votre déclaration de supposées connaissances a priori. Quelque chose qui semble raisonnable et qui sait que cette chose est complètement différente. Je dois admettre qu'il semble y avoir une résistance dans les statistiques traditionnelles à la validation croisée que je n'ai jamais comprise. Je choisirais l'efficacité prédictive sur des données hors échantillon plutôt que d'ajouter des hypothèses n'importe quel jour.

— Nir Friedman

2

Le LASSO ordonné semble être ce que vous recherchez: il calcule les coefficients de régression régularisés comme dans le LASSO standard, mais soumis à la contrainte supplémentaire que. $\beta_{1...j}$ $|\beta_1| \geq |\beta_2|...\geq|\beta_j|$

Cela permet d'atteindre le deuxième objectif de réduction à zéro des coefficients pour les retards d'ordre supérieur, mais est plus restrictif que la seule restriction consistant à préférer un modèle de décalage inférieur. Et comme d'autres le soulignent, il s'agit d'une restriction lourde qui peut être très difficile à justifier.

Après avoir renoncé aux mises en garde, l'article présente les résultats de la méthode sur les données de séries chronologiques réelles et simulées, et détaille les algorithmes pour trouver les coefficients. La conclusion mentionne un package R, mais le document est assez récent et une recherche sur CRAN de "LASSO commandé" est vide, donc je soupçonne que le package est toujours en développement.

L'article propose également une approche généralisée dans laquelle deux paramètres de régularisation «encouragent la quasi-monotonie». (Voir p. 6.) En d'autres termes, il faut pouvoir régler les paramètres pour permettre un ordre détendu. Malheureusement, ni exemples ni comparaisons de la méthode détendue ne sont fournis. Mais, les auteurs écrivent que l'implémentation de ce changement est une simple question de remplacer un algorithme par un autre, donc on espère qu'il fera partie du package R à venir.

— Sean Easter
source

Merci, c'est vraiment intéressant que ce soit une idée récente. En fait, j'ai eu la même idée de discuter du problème avec un ami lorsque j'ai posé la question il y a 9 mois, mais je n'ai jamais enquêté en profondeur! J'ai simplement supposé que l'idée n'était pas ce roman, ou que quelqu'un d'autre avait déjà écrit un article à ce sujet.

— gars

Bienvenue! J'ai été surpris que ce soit moi-même si récent.

— Sean Easter

1

La pénalité LASSO imbriquée ( pdf ) pourrait être utilisée mais il n'y a pas de packages R pour cela.

— user53874
source

1

À l'heure actuelle, il s'agit davantage d'un commentaire que d'une réponse. Pouvez-vous l'étendre un peu, peut-être en discutant de la pénalité imbriquée LASSO, etc.?

— gung - Rétablir Monica

0

Je sais que vous l'avez écrit comme prémisse, mais je n'utiliserais pas le LASSO commandé sans être absolument sûr que c'est quelque chose qui est nécessaire, car les hypothèses du LASSO commandé ne sont pas directement appropriées pour la prédiction de séries chronologiques. À titre de contre-exemple, considérons le cas où vous avez un délai de, disons, dix pas de temps entre la mesure et la cible. De toute évidence, les contraintes LASSO ordonnées ne peuvent pas gérer de tels effets sans attribuer un non-sens aux neuf premiers paramètres.

$\lambda$ $\lambda$ $\lambda=0$

$\lambda$

— davidhigh
source

Je ne serais évidemment pas intéressé par des contraintes sur l'ordre des coefficients si je n'avais pas de bonnes raisons a priori de le croire. Pour les modèles que je soupçonne vraisemblablement, heuristiquement le LASSO ordonné devrait être plus efficace. Avoir un coefficient de décalage de 10 avec les 9 autres étant 0 n'a aucun sens dans mon contexte de fond . C'est un problème sur lequel mes collègues ont travaillé (retrait basé sur les retards ordonnés), mais ils ont utilisé des idées bayésuennes et ne considéreraient donc pas un LASSO (non bayésien).

— gars

Ok, tu sembles savoir ce que tu fais. Mais rappelez-vous que le LASSO ordonné est plus fortement contraint que votre déclaration "une fois zéro - toujours zéro". Alternativement, vous pouvez également envisager un modèle dans lequel les paramètres entrent de manière multiplicative. Ensuite, l'importance relative peut augmenter ou diminuer jusqu'à ce qu'un coefficient devienne nul.

— davidhigh