Lasso bayésien vs pointe et dalle

Question: Quels sont les avantages / inconvénients d'utiliser l'un avant l'autre pour la sélection des variables?

Supposons que j'ai la probabilité: où je peux mettre l' un des prieurs: ou:

y \sim N (X w, σ^{2} I)

$y\sim\mathcal{N}(Xw,\sigma^2I)$

w_{i} \sim π δ_{0} + (1 - π) N (0, 100) π = 0.9,

$w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,,$

w_{i} \sim \exp (- λ | w_{i} |) λ \sim Γ (1, 1) .

$w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,.$

J'ai mis pour souligner que la plupart des poids sont nuls et un gamma avant pour choisir le paramètre de «régularisation». $\pi=0.9$ $\lambda$

Cependant, mon professeur continue d'insister sur le fait que la version au lasso «rétrécit» les coefficients et ne fait pas en fait une sélection appropriée des variables, c'est-à-dire qu'il y a un rétrécissement même des paramètres pertinents.

Personnellement, je trouve la mise en œuvre de la version Lasso plus facile car j'utilise des Bayes variationnels. En fait, le document d' apprentissage bayésien clairsemé qui met effectivement un a priori de donne des solutions encore plus rares. $\frac{1}{|w_i|}$

bayesian feature-selection

— sachinruk
source

Votre professeur a raison de dire qu'il réduit les paramètres pertinents, mais alors quoi? Il les réduit uniquement dans la mesure où ils ne contribuent pas de manière significative à la réduction de l'erreur. Et pourquoi se concentrer sur la sélection des variables appropriées. Ne devrait-on pas se concentrer sur la réduction des erreurs (de test)

— seanv507

Pour la plupart des problèmes, oui, je serais d'accord. Cependant, pour certains problèmes (par exemple, la détection du cancer avec l'expression des gènes), il est extrêmement important de trouver quelles caractéristiques sont les facteurs contributifs. ps depuis, je suis passé de mon postdoc depuis qu'il est débile. Apprentissage automatique ftw !!!

— sachinruk

Spike et Slab se trouvent être l'étalon-or dans la sélection variable et je préfère également travailler avec LASSO. @Sachin_ruk: le pic et la dalle antérieurs peuvent également être implémentés à l'aide de Bayes variationnels ...

— Sandipan Karmakar

@SandipanKarmakar pourriez-vous publier un lien se référant à la pointe et à la dalle avec Bayes variationnels.

— sachinruk

Votre question fusionne les problèmes de modélisation [quel précédent?] Et d'implémentation [Bayes variationnels]. Ils doivent être traités séparément.

— Xi'an

Ces deux méthodes (LASSO vs spike-and-slab) peuvent être interprétées comme des problèmes d'estimation bayésienne où vous spécifiez différents paramètres. L'une des principales différences est que la méthode LASSO ne met aucune masse ponctuelle à zéro pour l'a priori (c'est-à-dire que les paramètres sont presque sûrement non nuls a priori), tandis que la pointe et la dalle mettent une masse ponctuelle substantielle sur zéro.

À mon humble avis, le principal avantage de la méthode des pointes et des dalles est qu'elle est bien adaptée aux problèmes où le nombre de paramètres est supérieur au nombre de points de données et que vous souhaitez éliminer complètement un nombre important de paramètres du modèle. Parce que cette méthode met une grande masse ponctuelle à zéro dans le précédent, elle produira des estimations postérieures qui tendent à n'impliquer qu'une faible proportion des paramètres, en évitant, espérons-le, un sur-ajustement des données.

Lorsque votre professeur vous dit que le premier n'effectue pas de méthode de sélection des variables, il veut probablement dire ceci. Sous LASSO, chacun des paramètres est presque sûrement non nul a priori (c'est-à-dire qu'ils sont tous dans le modèle). Étant donné que la probabilité est également non nulle sur le support des paramètres, cela signifie également que chacun est presque sûrement non nul a priori (c'est-à-dire qu'ils sont tous dans le modèle). Maintenant, vous pouvez compléter cela avec un test d'hypothèse et exclure les paramètres du modèle de cette façon, mais ce serait un test supplémentaire imposé au-dessus du modèle bayésien.

Les résultats de l'estimation bayésienne refléteront une contribution des données et une contribution de l'a priori. Naturellement, une distribution a priori plus concentrée autour de zéro (comme le pic et la dalle) "réduira" en effet les estimateurs de paramètres résultants, par rapport à un a priori moins concentré (comme le LASSO). Bien entendu, ce «rétrécissement» n'est que l'effet des informations préalables que vous avez spécifiées. La forme de l'a priori LASSO signifie qu'il rétrécit toutes les estimations de paramètres vers la moyenne, par rapport à un a priori plus plat.

— Ben - Réintègre Monica
source