Inférence après avoir utilisé Lasso pour la sélection de variables


17

J'utilise Lasso pour la sélection d'entités dans un cadre dimensionnel relativement bas (n >> p). Après avoir ajusté un modèle Lasso, je veux utiliser les covariables avec des coefficients non nuls pour ajuster un modèle sans pénalité. Je fais cela parce que je veux des estimations impartiales que Lasso ne peut pas me donner. Je voudrais également des valeurs de p et des intervalles de confiance pour l'estimation non biaisée.

J'ai du mal à trouver de la littérature sur ce sujet. La plupart de la littérature que je trouve concerne l'imposition d'intervalles de confiance aux estimations de Lasso, et non un modèle réajusté.

D'après ce que j'ai lu, le simple réaménagement d'un modèle à l'aide de l'ensemble de données conduit à des valeurs p / valeurs std irréalistes. À l'heure actuelle, le fractionnement des échantillons (dans le style de Wasserman et Roeder (2014) ou Meinshausen et al. (2009)) semble être une bonne ligne de conduite, mais je cherche plus de suggestions.

Quelqu'un a-t-il rencontré ce problème? Si oui, pourriez-vous s'il vous plaît fournir quelques suggestions.


Je ne comprends pas pourquoi cela devrait être important si l'estimateur au lasso est biaisé tant que les intervalles de confiance ont (au moins asymptotiquement) une couverture correcte. Est-ce la seule raison pour laquelle vous souhaitez ajuster les estimations de l'OLS sur le support récupéré par le lasso?
user795305

J'ai peut-être mal compris ce que j'ai lu, mais la couverture asymptotiquement correcte ne se réfère-t-elle pas à une estimation biaisée, pas à la vraie estimation clairsemée mais non biaisée?
EliK

1
Je ne sais pas trop ce que vous entendez par estimation "vraie clairsemée mais non biaisée", mais si vous savez que les estimations au lasso ont des intervalles de confiance avec une couverture asymptotiquement correcte, il ne devrait pas y avoir plus à faire. L'article que vient de relier Greenparker (+1) est vraiment intéressant (et le plus récent que je connaisse à ce sujet) qui explique (en partie) comment vous pouvez développer des intervalles de confiance asymptotiquement corrects sur le lasso puis les coefficients ols. J'essaie de souligner que vous n'avez pas besoin d'adapter l'OLS pour obtenir des coefficients non biaisés, car l'impartialité n'a pas d'importance.
user795305

Je pense que j'ai mal compris. La couverture asymptotiquement correcte à laquelle vous faites référence concerne le vrai paramètre. Donc, même si Lasso donne des coefficients biaisés, pouvons-nous construire des intervalles de confiance qui ont la couverture correcte pour le vrai paramètre?
EliK

2
Une fois que vous avez sélectionné un modèle, vous n'aurez pas d'estimations non basées si vous effectuez une estimation sans Lasso. Les coefficients des termes dans le modèle après sélectionner-variables-puis-ajuster-via-OLS seront en fait biaisés loin de 0 (comme avec d'autres formes de sélection de variables). Une petite quantité de retrait peut en fait réduire le biais.
Glen_b -Reinstate Monica

Réponses:


12

Pour compléter les réponses précédentes. Vous devriez certainement consulter les travaux récents de Tibshirani et ses collègues. Ils ont développé un cadre rigoureux pour déduire les valeurs de p corrigées de la sélection et les intervalles de confiance pour les méthodes de type lasso et fournissent également un package R.

Voir:

Lee, Jason D. et al. "Inférence post-sélection exacte, avec application au lasso." The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan et Robert J. Tibshirani. "Apprentissage statistique et inférence sélective." Actes de l'Académie nationale des sciences 112.25 (2015): 7629-7634.

Paquet R:

https://cran.r-project.org/web/packages/selectiveInference/index.html


17

En règle générale, le réajustement sans pénalité après avoir effectué la sélection de variables via le Lasso est considéré comme de la «tricherie» car vous avez déjà examiné les données et les valeurs de p et les intervalles de confiance qui en résultent ne sont pas valides au sens habituel.

p

l'ensemble des variables sélectionnées par le lasso est déterministe et ne dépend pas des données avec une forte probabilité.

Ainsi, jeter un œil aux données deux fois n'est pas un problème. Vous devrez voir si, pour votre problème, les conditions énoncées dans la réserve de papier ou non.

(Il y a aussi beaucoup de références utiles dans le document)


Référence:

Zhao, S., Shojaie, A., et Witten, D. (2017). Pour défendre l'indéfendable: une approche très naïve de l'inférence à haute dimension. Extrait de: https://arxiv.org/pdf/1705.05543.pdf


9
+1 Il convient toutefois de noter que les auteurs ne recommandent explicitement leur approche que "dans des contextes de données très volumineux": "Nous ne préconisons pas d'appliquer l'approche ... décrite ci-dessus dans la plupart des contextes d'analyse de données pratiques: nous sommes confiants qu'en pratique ... cette approche fonctionnera mal lorsque la taille de l'échantillon est petite ou modérée et / ou que les hypothèses ne sont pas remplies "(à la p. 27). Pour mémoire, cet article est Zhao, Shojaie et Witten, In Defense of the Indéfensible: A Very Naive Approach to High-Dimensional Inference (16 mai 2017).
whuber

@whuber Et gardez également à l'esprit que cet article est sur arxiv.org - je ne sais pas s'il a été évalué par des pairs, il peut donc y avoir d'autres problèmes avec la méthodologie de l'auteur.
RobertF

0

Je voulais ajouter quelques articles de la littérature orthogonale / double apprentissage automatique qui devient populaire dans la littérature d'économétrie appliquée.

  • Belloni, Alexandre, Victor Chernozhukov et Christian Hansen. "Inférence sur les effets du traitement après sélection parmi des contrôles de grande dimension." The Review of Economic Studies 81.2 (2014): 608-650.

    Cet article traite des propriétés théoriques d'une estimation OLS de l'effet d'une variable après avoir sélectionné les «autres» contrôles à l'aide de LASSO.

  • Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Double / debiated machine learning for treatment and structural parameters, The Econometrics Journal, Volume 21, Issue 1, 1 février 2018, Pages C1 – C68 , https://doi.org/10.1111/ectj.12097

    Cela développe la théorie complète de l'utilisation d'un certain nombre de méthodes non paramétriques (algorithmes ML) pour contrôler de manière non linéaire un paramètre de nuisance de grande dimension (facteurs de confusion), puis étudier l'impact d'une covariable spécifique sur le résultat. Ils traitent de cadres partiellement linéaires et de cadres complètement paramétriques. Ils considèrent également les situations où la variable d'intérêt est confondue.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.