Il y a quelques jours, une question similaire avait la référence pertinente:
- Belloni, A., Chernozhukov, V., et Hansen, C. (2014) "Inférence sur les effets du traitement après sélection parmi les contrôles de grande dimension", Review of Economic Studies, 81 (2), pp. 608-50 ( lien )
Au moins pour moi, le document est une lecture assez difficile, car les preuves derrière ce relativement simple sont assez élaborées. Lorsque vous souhaitez estimer un modèle comme
yi=αTi+X′iβ+ϵi
où est votre résultat, est un effet de traitement d'intérêt et est un vecteur de contrôles potentiels. Le paramètre cible est . En supposant que la majeure partie de la variation de votre résultat s'explique par le traitement et un ensemble de contrôles clairsemé, Belloni et al. (2014) développent une méthode de sélection à double robustesse qui fournit des estimations ponctuelles correctes et des intervalles de confiance valides. Cette hypothèse de rareté est cependant importante.yiTiXiα
Si inclut quelques prédicteurs importants deXiyi mais que vous ne savez pas de quoi il s'agit (que ce soit des variables uniques, leurs polynômes d'ordre supérieur ou des interactions avec d'autres variables), vous pouvez effectuer une procédure de sélection en trois étapes:
- yiXi
- TiXi
- yiTi
Ils fournissent des preuves pour expliquer pourquoi cela fonctionne et pourquoi vous obtenez les intervalles de confiance corrects, etc., de cette méthode. Ils montrent également que si vous effectuez uniquement une sélection LASSO sur la régression ci-dessus, puis régressez le résultat sur le traitement et les variables sélectionnées, vous obtenez des estimations ponctuelles erronées et de faux intervalles de confiance, comme Björn l'a déjà dit.
Le but de cette opération est double: comparer votre modèle initial, où la sélection des variables était guidée par l'intuition ou la théorie, au modèle de sélection à double robustesse vous donne une idée de la qualité de votre premier modèle. Peut-être que votre premier modèle a oublié certains termes au carré ou d'interaction importants et souffre donc d'une forme fonctionnelle mal spécifiée ou de variables omises. Deuxièmement, Belloni et al. (2014) peut améliorer l'inférence sur votre paramètre cible car les régresseurs redondants ont été pénalisés dans leur procédure.