J'ai un ensemble de données avec trois variables, où toutes les variables sont quantitatives. Appelons-le , et . Je monte un modèle de régression dans une perspective bayésienne via MCMC avecrjags
J'ai fait une analyse exploratoire et le nuage de points de suggère d'utiliser un terme quadratique. J'ai ensuite monté deux modèles
(1)
(2)
Dans le modèle 1, la taille de l'effet de chaque paramètre n'est pas petite et l'intervalle crédible à 95% ne contient pas la valeur .
Dans le modèle 2, la taille de l'effet des paramètres et sont petits et chacun des intervalles crédibles pour tous les paramètres contient .
Le fait qu'un intervalle crédible contient suffit de dire que le paramètre n'est pas significatif?
J'ai ensuite ajusté le modèle suivant
(3)
La taille de l'effet de chaque paramètre n'est pas petite, mais à l'exception de tous les intervalles crédibles contiennent .
Quelle est la bonne façon de faire une sélection de variables dans les statistiques bayésiennes?
EDIT: Je peux utiliser Lasso dans n'importe quel modèle de régression, comme le modèle Beta? J'utilise un modèle à dispersion variable où
EDIT2: j'ai monté deux modèles, dont un à priori gaussien, et une avec Laplace (double exponentielle).
Les estimations pour le modèle gaussien sont
Mean SD Naive SE Time-series SE
B[1] -1.17767 0.07112 0.0007497 0.0007498
B[2] -0.15624 0.03916 0.0004128 0.0004249
B[3] 0.15600 0.05500 0.0005797 0.0005889
B[4] 0.07682 0.04720 0.0004975 0.0005209
delta[1] -3.42286 0.32934 0.0034715 0.0034712
delta[2] 0.06329 0.27480 0.0028966 0.0028969
delta[3] 1.06856 0.34547 0.0036416 0.0036202
delta[4] -0.32392 0.26944 0.0028401 0.0028138
Les estimations pour le modèle Lasso sont
Mean SD Naive SE Time-series SE
B[1] -1.143644 0.07040 0.0007421 0.0007422
B[2] -0.160541 0.05341 0.0005630 0.0005631
B[3] 0.137026 0.05642 0.0005947 0.0005897
B[4] 0.046538 0.04770 0.0005028 0.0005134
delta[1] -3.569151 0.27840 0.0029346 0.0029575
delta[2] -0.004544 0.15920 0.0016781 0.0016786
delta[3] 0.411220 0.33422 0.0035230 0.0035629
delta[4] -0.034870 0.16225 0.0017103 0.0017103
lambda 7.269359 5.45714 0.0575233 0.0592808
Les estimations pour et beaucoup réduit dans le modèle Lasso, cela signifie que je devrais supprimer ces variables du modèle?
EDIT3: Le modèle à double exponentielle a priori (Lasso) me donne des valeurs de déviance, BIC et DIC plus grandes que le modèle avec des a priori gaussiens et j'obtiens même des valeurs plus petites après avoir supprimé le coefficient de dispersion dans le modèle gaussien.