Pour le LASSO (et d'autres procédures de sélection de modèle), il est crucial de redimensionner les prédicteurs. La recommandation générale que je suis consiste simplement à utiliser une normalisation de 0 moyenne, 1 écart-type pour les variables continues. Mais que faire avec les nuls?
Par exemple, certains exemples appliqués de la même (excellente) école d'été que j'ai liés à la mise à l'échelle des variables continues doivent être compris entre 0 et 1 (pas très bien avec les valeurs aberrantes cependant), probablement pour être comparables aux variables muettes. Mais même cela ne garantit pas que les coefficients doivent être du même ordre de grandeur, et donc pénalisés de la même manière, la principale raison du rééchelonnement, non?