Ma compréhension de la régression LASSO est que les coefficients de régression sont sélectionnés pour résoudre le problème de minimisation:
En pratique, cela se fait en utilisant un multiplicateur de Lagrange, ce qui rend le problème à résoudre
Quelle est la relation entre et ? Wikipédia déclare simplement que cela "dépend des données".
Pourquoi je m'inquiète? D'abord pour la curiosité intellectuelle. Mais je suis également préoccupé par les conséquences de la sélection de par validation croisée.
Plus précisément, si je fais une validation croisée n fois, j'adapte n modèles différents à n partitions différentes de mes données d'entraînement. Je compare ensuite la précision de chacun des modèles sur les données inutilisées pour un \ lambda donné . Mais le même implique une contrainte différente ( ) pour différents sous-ensembles de données (c'est-à-dire que est "dépendant des données").
Le problème de validation croisée que je veux vraiment résoudre n'est-il pas vraiment de trouver le qui offre le meilleur compromis précision-biais?
Je peux avoir une idée approximative de la taille de cet effet dans la pratique en calculant pour chaque division de validation croisée et et en regardant la distribution résultante. Dans certains cas, la contrainte implicite ( ) peut varier considérablement de manière silencieuse dans mes sous-ensembles de validation croisée. Où j'entends essentiellement le coefficient de variation de .