La régression LASSO réduit les coefficients vers zéro, permettant ainsi une sélection efficace du modèle. Je crois que dans mes données, il existe des interactions significatives entre les covariables nominales et continues. Cependant, les «principaux effets» du vrai modèle ne sont pas nécessairement significatifs (non nuls). Bien sûr, je ne le sais pas car le vrai modèle est inconnu. Mes objectifs sont de trouver le vrai modèle et de prédire le résultat le plus près possible.
J'ai appris que l'approche classique de la construction de modèles inclurait toujours un effet principal avant qu'une interaction ne soit incluse. Il ne peut donc pas y avoir de modèle sans effet principal de deux covariables et s'il y a interaction des covariables dans le même modèle. Par conséquent, la fonction sélectionne soigneusement les termes du modèle (par exemple sur la base d'un AIC en amont ou en aval) respectant cette règle.step
R
LASSO semble fonctionner différemment. Étant donné que tous les paramètres sont pénalisés, il peut sans aucun doute arriver qu'un effet principal soit réduit à zéro alors que l'interaction du meilleur modèle (par exemple, à validation croisée) est non nulle. C'est ce que je trouve en particulier pour mes données lors de l'utilisation R
du glmnet
package de.
J'ai reçu des critiques fondées sur la première règle citée ci-dessus, c'est-à-dire que mon modèle de Lasso croisé final n'inclut pas les termes d'effet principal correspondants d'une certaine interaction non nulle. Cependant, cette règle semble quelque peu étrange dans ce contexte. Cela revient à se demander si le paramètre dans le vrai modèle est zéro. Supposons que ce soit le cas mais que l'interaction est non nulle, alors LASSO l'identifiera peut-être, trouvant ainsi le bon modèle. En fait, il semble que les prédictions de ce modèle seront plus précises car le modèle ne contient pas l'effet principal vrai zéro, qui est en fait une variable de bruit.
Puis-je réfuter la critique fondée sur ce motif ou dois-je prendre des précautions d'une manière ou d'une autre selon lesquelles LASSO inclut le principal effet avant le terme d'interaction?