Dans la détection compressée, il existe un théorème garantissant que a une solution clairsemée unique c (voir l'annexe pour plus de détails).
Existe-t-il un théorème similaire pour le lasso? S'il existe un tel théorème, non seulement il garantira la stabilité du lasso, mais il fournira également au lasso une interprétation plus significative:
lasso peut découvrir le vecteur de coefficient de régression clairsemé qui est utilisé pour générer la réponse par .
Il y a deux raisons pour lesquelles je pose cette question:
Je pense que `` le lasso favorise une solution clairsemée '' n'est pas une réponse à la raison pour laquelle utiliser le lasso pour la sélection des fonctionnalités, car nous ne pouvons même pas dire quel est l'avantage des fonctionnalités que nous sélectionnons.
J'ai appris que le lasso est connu pour être instable pour la sélection des fonctionnalités. En pratique, nous devons exécuter des échantillons de bootstrap pour évaluer sa stabilité. Quelle est la raison la plus cruciale à l'origine de cette instabilité?
Appendice:
Étant donné . est un vecteur -parsé ( ). Le processus génère la réponse . Si a la NSP (propriété d'espace nul) d'ordre et que la matrice de covariance de n'a pas de valeur propre proche de zéro, il y aura une solution unique à
Ce que dit également ce théorème, c'est aussi que si n'a pas le NSP d'ordre , il est tout simplement inutile de résoudre .
ÉDITER:
Après avoir reçu ces excellentes réponses, j'ai réalisé que j'étais confus lorsque je posais cette question.
Pourquoi cette question prête à confusion:
J'ai lu un document de recherche dans lequel nous devons décider combien d'entités (colonnes) la matrice de conception va avoir (les entités auxiliaires sont créées à partir des entités principales). Puisqu'il s'agit d'un problème typique , devrait être bien construit de sorte que la solution au lasso puisse être une bonne approximation de la vraie solution creuse.
Le raisonnement est basé sur le théorème que j'ai mentionné en annexe: Si nous cherchons à trouver une solution -parse , a mieux d'avoir le NSP d'ordre .
Pour une matrice générale , si est violé, alors
aucune récupération stable et robuste de partir de et n'est possible
correspond à , correspond à
... comme attendu de la relation , la sélection du descripteur devient plus instable, c'est-à-dire que pour différents ensembles d'apprentissage, le descripteur sélectionné diffère souvent ...
La deuxième citation est la partie qui m'embrouille. Il me semble que lorsque l'inégalité est violée, ce n'est pas seulement la solution peut-être non unique (non mentionnée), mais le descripteur deviendra également plus instable.