Un peu plus d'informations; supposer que
- vous savez à l'avance combien de variables sélectionner et que vous définissez la pénalité de complexité dans la procédure LARS de manière à avoir exactement autant de variables avec des coefficients non 0,
- les coûts de calcul ne sont pas un problème (le nombre total de variables est petit, disons 50),
- que toutes les variables (y, x) sont continues.
Dans quel cadre le modèle LARS (c'est-à-dire l'ajustement OLS de ces variables ayant des coefficients non nuls dans l'ajustement LARS) serait-il le plus différent d'un modèle avec le même nombre de coefficients mais trouvé par une recherche exhaustive (à la regsubsets ())?
Edit: j'utilise 50 variables et 250 observations avec les coefficients réels tirés d'un gaussien standard à l'exception de 10 des variables ayant des coefficients `` réels '' de 0 (et toutes les caractéristiques étant fortement corrélées entre elles). Ces paramètres ne sont évidemment pas bons car les différences entre les deux ensembles de variables sélectionnées sont infimes. C'est vraiment une question sur le type de configuration de données à simuler pour obtenir le plus de différences.