Contexte et exemple empirique
J'ai deux études; J'ai mené une expérience (étude 1), puis je l'ai reproduite (étude 2). Dans l'étude 1, j'ai trouvé une interaction entre deux variables; dans l'étude 2, cette interaction était dans la même direction mais non significative. Voici le résumé du modèle de l'étude 1:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.75882 0.26368 21.840 < 2e-16 ***
condSuppression -1.69598 0.34549 -4.909 1.94e-06 ***
prej -0.01981 0.08474 -0.234 0.81542
condSuppression:prej 0.36342 0.11513 3.157 0.00185 **
Et le modèle de l'étude 2:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.24493 0.24459 21.444 <2e-16 ***
prej 0.13817 0.07984 1.731 0.0851 .
condSuppression -0.59510 0.34168 -1.742 0.0831 .
prej:condSuppression 0.13588 0.11889 1.143 0.2545
Au lieu de dire: «Je suppose que je n'ai rien, car je n'ai pas réussi à répliquer», ce que j'ai fait a été de combiner les deux ensembles de données, de créer une variable fictive pour quelle étude les données provenaient, puis d'exécuter l'interaction. à nouveau après contrôle pour la variable fictive de l'étude. Cette interaction était significative même après contrôle, et j'ai trouvé que cette interaction bidirectionnelle entre la condition et l'aversion / préj n'était pas qualifiée par une interaction tripartite avec la variable fictive de l'étude.
Présentation de l'analyse bayésienne
Quelqu'un a suggéré que c'était une excellente occasion d'utiliser l'analyse bayésienne: dans l'étude 2, j'ai des informations de l'étude 1 que je peux utiliser comme informations antérieures! De cette façon, l'étude 2 effectue une mise à jour bayésienne à partir des résultats fréquentiels, des moindres carrés ordinaires de l'étude 1. Donc, je reviens en arrière et ré-analyse le modèle de l'étude 2, en utilisant maintenant des informations préalables sur les coefficients: tous les coefficients avaient un a priori normal où la moyenne était l'estimation dans l'étude 1 et l'écart-type était l'erreur-type dans l'étude 1.
Voici un résumé du résultat:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.63 0.17 5.30 5.52 5.63 5.74 5.96
condSuppression -1.20 0.20 -1.60 -1.34 -1.21 -1.07 -0.80
prej 0.02 0.05 -0.08 -0.01 0.02 0.05 0.11
condSuppression:prej 0.34 0.06 0.21 0.30 0.34 0.38 0.46
sigma 1.14 0.06 1.03 1.10 1.13 1.17 1.26
mean_PPD 5.49 0.11 5.27 5.41 5.49 5.56 5.72
log-posterior -316.40 1.63 -320.25 -317.25 -316.03 -315.23 -314.29
Il semble que nous ayons maintenant des preuves assez solides pour une interaction de l'analyse de l'étude 2. Cela correspond à ce que j'ai fait lorsque j'ai simplement empilé les données les unes sur les autres et exécuté le modèle avec le numéro d'étude comme variable fictive.
Contrefactuel: que se passe-t-il si j'exécute l'étude 2 en premier?
Cela m'a fait penser: et si j'avais d'abord exécuté l'étude 2, puis utilisé les données de l'étude 1 pour mettre à jour mes croyances sur l'étude 2? J'ai fait la même chose que ci-dessus, mais en sens inverse: j'ai ré-analysé les données de l'étude 1 en utilisant les estimations fréquentes, les coefficients des moindres carrés ordinaires et les écarts-types de l'étude 2 comme moyens et écarts-types antérieurs pour mon analyse des données de l'étude 1. Les résultats sommaires étaient:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.35 0.17 5.01 5.23 5.35 5.46 5.69
condSuppression -1.09 0.20 -1.47 -1.22 -1.09 -0.96 -0.69
prej 0.11 0.05 0.01 0.08 0.11 0.14 0.21
condSuppression:prej 0.17 0.06 0.05 0.13 0.17 0.21 0.28
sigma 1.10 0.06 0.99 1.06 1.09 1.13 1.21
mean_PPD 5.33 0.11 5.11 5.25 5.33 5.40 5.54
log-posterior -303.89 1.61 -307.96 -304.67 -303.53 -302.74 -301.83
Encore une fois, nous voyons des preuves d'une interaction, mais cela n'a peut-être pas nécessairement été le cas. Notez que l'estimation ponctuelle pour les deux analyses bayésiennes n'est même pas dans les intervalles crédibles de 95% l'un pour l'autre; les deux intervalles crédibles des analyses bayésiennes ont plus de non-chevauchement qu'ils ne se chevauchent.
Quelle est la justification bayésienne de la priorité temporelle?
Ma question est donc la suivante: quelles justifications les bayésiens ont-ils pour respecter la chronologie de la collecte et de l'analyse des données? J'obtiens des résultats de l'Étude 1 et les utilise comme prièrs informatifs dans l'Étude 2 afin d'utiliser l'Étude 2 pour «mettre à jour» mes croyances. Mais si nous supposons que les résultats que j'obtiens sont tirés au hasard d'une distribution avec un véritable effet de population ... alors pourquoi privilégier les résultats de l'étude 1? Quelle est la justification de l'utilisation des résultats de l'étude 1 en tant que priors pour l'étude 2 au lieu de prendre les résultats de l'étude 2 en tant que priors pour l'étude 1? L'ordre dans lequel j'ai collecté et calculé les analyses est-il vraiment important? Il ne me semble pas que cela devrait être le cas - quelle est la justification bayésienne de cela? Pourquoi devrais-je croire que l'estimation ponctuelle est plus proche de 0,34 que de 0,17 simplement parce que j'ai exécuté l'étude 1 en premier?
Répondre à la réponse du kodiologue
Le kodiologue a fait remarquer:
Le deuxième de ces points indique un important départ que vous avez fait de la convention bayésienne. Vous n'avez pas défini de priorité avant, puis adapté les deux modèles à la mode bayésienne. Vous ajustez un modèle de façon non bayésienne, puis vous l'utilisez pour les priors de l'autre modèle. Si vous utilisiez l'approche conventionnelle, vous ne verriez pas la dépendance à l'ordre que vous avez vue ici.
Pour résoudre ce problème, j'ai ajusté les modèles de l'étude 1 et de l'étude 2 où tous les coefficients de régression avaient un a priori de . La variable était une variable fictive pour la condition expérimentale, codée 0 ou 1; la variable, ainsi que le résultat, ont tous deux été mesurés sur des échelles de 7 points allant de 1 à 7. Ainsi, je pense que c'est un bon choix d'antériorité. Juste par la façon dont les données sont mises à l'échelle, il serait très, très rare de voir des coefficients beaucoup plus grands que ce que cet a priori suggère.cond
prej
Les estimations moyennes et l'écart type de ces estimations sont à peu près les mêmes que dans la régression OLS. Etude 1:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.756 0.270 5.236 5.573 5.751 5.940 6.289
condSuppression -1.694 0.357 -2.403 -1.925 -1.688 -1.452 -0.986
prej -0.019 0.087 -0.191 -0.079 -0.017 0.040 0.150
condSuppression:prej 0.363 0.119 0.132 0.282 0.360 0.442 0.601
sigma 1.091 0.057 0.987 1.054 1.088 1.126 1.213
mean_PPD 5.332 0.108 5.121 5.259 5.332 5.406 5.542
log-posterior -304.764 1.589 -308.532 -305.551 -304.463 -303.595 -302.625
Et étude 2:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.249 0.243 4.783 5.082 5.246 5.417 5.715
condSuppression -0.599 0.342 -1.272 -0.823 -0.599 -0.374 0.098
prej 0.137 0.079 -0.021 0.084 0.138 0.192 0.287
condSuppression:prej 0.135 0.120 -0.099 0.055 0.136 0.214 0.366
sigma 1.132 0.056 1.034 1.092 1.128 1.169 1.253
mean_PPD 5.470 0.114 5.248 5.392 5.471 5.548 5.687
log-posterior -316.699 1.583 -320.626 -317.454 -316.342 -315.561 -314.651
Étant donné que ces moyennes et écarts-types sont plus ou moins les mêmes que les estimations de l'OLS, l'effet d'ordre ci-dessus se produit toujours. Si je branche les statistiques récapitulatives postérieures de l'étude 1 dans les priors lors de l'analyse de l'étude 2, j'observe une postérieure finale différente de celle lors de l'analyse de l'étude 2 d'abord, puis en utilisant ces statistiques récapitulatives postérieures comme priors pour l'analyse de l'étude 1.
Même lorsque j'utilise les moyennes bayésiennes et les écarts-types pour les coefficients de régression comme a priori au lieu des estimations fréquentistes, j'observerais toujours le même effet d'ordre. La question demeure donc: quelle est la justification bayésienne pour privilégier l'étude qui est venue en premier?
rstanarm
ou Stan? Il semble que cette question ait déjà été posée ici: stats.stackexchange.com/questions/241690/…
prej
devrait être la même dans les deux cas, à moins que je ne comprenne mal votre procédure.