Quelle est la justification bayésienne pour privilégier les analyses effectuées plus tôt que les autres analyses?

Contexte et exemple empirique

J'ai deux études; J'ai mené une expérience (étude 1), puis je l'ai reproduite (étude 2). Dans l'étude 1, j'ai trouvé une interaction entre deux variables; dans l'étude 2, cette interaction était dans la même direction mais non significative. Voici le résumé du modèle de l'étude 1:

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)              5.75882    0.26368  21.840  < 2e-16 ***
condSuppression         -1.69598    0.34549  -4.909 1.94e-06 ***
prej                    -0.01981    0.08474  -0.234  0.81542    
condSuppression:prej     0.36342    0.11513   3.157  0.00185 **

Et le modèle de l'étude 2:

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           5.24493    0.24459  21.444   <2e-16 ***
prej                  0.13817    0.07984   1.731   0.0851 .  
condSuppression      -0.59510    0.34168  -1.742   0.0831 .  
prej:condSuppression  0.13588    0.11889   1.143   0.2545

Au lieu de dire: «Je suppose que je n'ai rien, car je n'ai pas réussi à répliquer», ce que j'ai fait a été de combiner les deux ensembles de données, de créer une variable fictive pour quelle étude les données provenaient, puis d'exécuter l'interaction. à nouveau après contrôle pour la variable fictive de l'étude. Cette interaction était significative même après contrôle, et j'ai trouvé que cette interaction bidirectionnelle entre la condition et l'aversion / préj n'était pas qualifiée par une interaction tripartite avec la variable fictive de l'étude.

Présentation de l'analyse bayésienne

Quelqu'un a suggéré que c'était une excellente occasion d'utiliser l'analyse bayésienne: dans l'étude 2, j'ai des informations de l'étude 1 que je peux utiliser comme informations antérieures! De cette façon, l'étude 2 effectue une mise à jour bayésienne à partir des résultats fréquentiels, des moindres carrés ordinaires de l'étude 1. Donc, je reviens en arrière et ré-analyse le modèle de l'étude 2, en utilisant maintenant des informations préalables sur les coefficients: tous les coefficients avaient un a priori normal où la moyenne était l'estimation dans l'étude 1 et l'écart-type était l'erreur-type dans l'étude 1.

Voici un résumé du résultat:

Estimates:
                       mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)             5.63    0.17    5.30    5.52    5.63    5.74    5.96
condSuppression        -1.20    0.20   -1.60   -1.34   -1.21   -1.07   -0.80
prej                    0.02    0.05   -0.08   -0.01    0.02    0.05    0.11
condSuppression:prej    0.34    0.06    0.21    0.30    0.34    0.38    0.46
sigma                   1.14    0.06    1.03    1.10    1.13    1.17    1.26
mean_PPD                5.49    0.11    5.27    5.41    5.49    5.56    5.72
log-posterior        -316.40    1.63 -320.25 -317.25 -316.03 -315.23 -314.29

Il semble que nous ayons maintenant des preuves assez solides pour une interaction de l'analyse de l'étude 2. Cela correspond à ce que j'ai fait lorsque j'ai simplement empilé les données les unes sur les autres et exécuté le modèle avec le numéro d'étude comme variable fictive.

Contrefactuel: que se passe-t-il si j'exécute l'étude 2 en premier?

Cela m'a fait penser: et si j'avais d'abord exécuté l'étude 2, puis utilisé les données de l'étude 1 pour mettre à jour mes croyances sur l'étude 2? J'ai fait la même chose que ci-dessus, mais en sens inverse: j'ai ré-analysé les données de l'étude 1 en utilisant les estimations fréquentes, les coefficients des moindres carrés ordinaires et les écarts-types de l'étude 2 comme moyens et écarts-types antérieurs pour mon analyse des données de l'étude 1. Les résultats sommaires étaient:

Estimates:
                          mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)                5.35    0.17    5.01    5.23    5.35    5.46    5.69
condSuppression           -1.09    0.20   -1.47   -1.22   -1.09   -0.96   -0.69
prej                       0.11    0.05    0.01    0.08    0.11    0.14    0.21
condSuppression:prej       0.17    0.06    0.05    0.13    0.17    0.21    0.28
sigma                      1.10    0.06    0.99    1.06    1.09    1.13    1.21
mean_PPD                   5.33    0.11    5.11    5.25    5.33    5.40    5.54
log-posterior           -303.89    1.61 -307.96 -304.67 -303.53 -302.74 -301.83

Encore une fois, nous voyons des preuves d'une interaction, mais cela n'a peut-être pas nécessairement été le cas. Notez que l'estimation ponctuelle pour les deux analyses bayésiennes n'est même pas dans les intervalles crédibles de 95% l'un pour l'autre; les deux intervalles crédibles des analyses bayésiennes ont plus de non-chevauchement qu'ils ne se chevauchent.

Quelle est la justification bayésienne de la priorité temporelle?

Ma question est donc la suivante: quelles justifications les bayésiens ont-ils pour respecter la chronologie de la collecte et de l'analyse des données? J'obtiens des résultats de l'Étude 1 et les utilise comme prièrs informatifs dans l'Étude 2 afin d'utiliser l'Étude 2 pour «mettre à jour» mes croyances. Mais si nous supposons que les résultats que j'obtiens sont tirés au hasard d'une distribution avec un véritable effet de population ... alors pourquoi privilégier les résultats de l'étude 1? Quelle est la justification de l'utilisation des résultats de l'étude 1 en tant que priors pour l'étude 2 au lieu de prendre les résultats de l'étude 2 en tant que priors pour l'étude 1? L'ordre dans lequel j'ai collecté et calculé les analyses est-il vraiment important? Il ne me semble pas que cela devrait être le cas - quelle est la justification bayésienne de cela? Pourquoi devrais-je croire que l'estimation ponctuelle est plus proche de 0,34 que de 0,17 simplement parce que j'ai exécuté l'étude 1 en premier?

Répondre à la réponse du kodiologue

Le kodiologue a fait remarquer:

Le deuxième de ces points indique un important départ que vous avez fait de la convention bayésienne. Vous n'avez pas défini de priorité avant, puis adapté les deux modèles à la mode bayésienne. Vous ajustez un modèle de façon non bayésienne, puis vous l'utilisez pour les priors de l'autre modèle. Si vous utilisiez l'approche conventionnelle, vous ne verriez pas la dépendance à l'ordre que vous avez vue ici.

Pour résoudre ce problème, j'ai ajusté les modèles de l'étude 1 et de l'étude 2 où tous les coefficients de régression avaient un a priori de . La variable était une variable fictive pour la condition expérimentale, codée 0 ou 1; la variable, ainsi que le résultat, ont tous deux été mesurés sur des échelles de 7 points allant de 1 à 7. Ainsi, je pense que c'est un bon choix d'antériorité. Juste par la façon dont les données sont mises à l'échelle, il serait très, très rare de voir des coefficients beaucoup plus grands que ce que cet a priori suggère. $\text{N}(0, 5)$ condprej

Les estimations moyennes et l'écart type de ces estimations sont à peu près les mêmes que dans la régression OLS. Etude 1:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.756    0.270    5.236    5.573    5.751    5.940    6.289
condSuppression        -1.694    0.357   -2.403   -1.925   -1.688   -1.452   -0.986
prej                   -0.019    0.087   -0.191   -0.079   -0.017    0.040    0.150
condSuppression:prej    0.363    0.119    0.132    0.282    0.360    0.442    0.601
sigma                   1.091    0.057    0.987    1.054    1.088    1.126    1.213
mean_PPD                5.332    0.108    5.121    5.259    5.332    5.406    5.542
log-posterior        -304.764    1.589 -308.532 -305.551 -304.463 -303.595 -302.625

Et étude 2:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.249    0.243    4.783    5.082    5.246    5.417    5.715
condSuppression        -0.599    0.342   -1.272   -0.823   -0.599   -0.374    0.098
prej                    0.137    0.079   -0.021    0.084    0.138    0.192    0.287
condSuppression:prej    0.135    0.120   -0.099    0.055    0.136    0.214    0.366
sigma                   1.132    0.056    1.034    1.092    1.128    1.169    1.253
mean_PPD                5.470    0.114    5.248    5.392    5.471    5.548    5.687
log-posterior        -316.699    1.583 -320.626 -317.454 -316.342 -315.561 -314.651

Étant donné que ces moyennes et écarts-types sont plus ou moins les mêmes que les estimations de l'OLS, l'effet d'ordre ci-dessus se produit toujours. Si je branche les statistiques récapitulatives postérieures de l'étude 1 dans les priors lors de l'analyse de l'étude 2, j'observe une postérieure finale différente de celle lors de l'analyse de l'étude 2 d'abord, puis en utilisant ces statistiques récapitulatives postérieures comme priors pour l'analyse de l'étude 1.

Même lorsque j'utilise les moyennes bayésiennes et les écarts-types pour les coefficients de régression comme a priori au lieu des estimations fréquentistes, j'observerais toujours le même effet d'ordre. La question demeure donc: quelle est la justification bayésienne pour privilégier l'étude qui est venue en premier?

bayesian

— Mark White
source

"Je serais toujours dans la même situation. Donc la question demeure: Quelle est la justification bayésienne pour privilégier l'étude qui est venue en premier?" - Hein? Dans quel sens privilégiez-vous toujours l'étude 1? Vous pouvez ajuster les deux modèles comme vous l'avez décrit ici ou dans l'ordre inverse et votre estimation finale, par exemple, du véritable coefficient de population pour prejdevrait être la même dans les deux cas, à moins que je ne comprenne mal votre procédure.

— Kodiologist

@Kodiologist J'ai édité pour plus de clarté, y compris plus sur la procédure.

— Mark White

Qu'en est-il de la matrice de covariance et de l'erreur? Vous devez utiliser l'ensemble de l'articulation postérieure comme nouveau prieur.

— Scortchi - Réintégrer Monica

@Scortchi bingo — c'est la bonne réponse, je pense, et c'est ce que la réponse d'unutbu m'a fait croire. Ce que j'ai fait était une version vraiment grossière de la mise à jour: j'ai pris des statistiques sommaires, pas la totalité de l'articulation postérieure. Cela implique la question: existe-t-il un moyen d'inclure l'ensemble de l'articulation postérieure en tant que prieur dans rstanarmou Stan? Il semble que cette question ait déjà été posée ici: stats.stackexchange.com/questions/241690/…

— Mark White

Si vous commencez avec des a priori gaussiens (et l'indépendance?) Pour les coefficients et un gamma inverse pour la variance, alors vous avez un gamma inverse normal avant et c'est conjugué. Recherchez les équations de mise à jour.

— Scortchi - Réintégrer Monica

Réponses:

Le théorème de Bayes dit que le posteriorest égal à prior * likelihoodaprès le redimensionnement (donc la probabilité est égale à 1). Chaque observation a un likelihoodqui peut être utilisé pour mettre à jour prioret créer un nouveau posterior:

posterior_1 = prior * likelihood_1
posterior_2 = posterior_1 * likelihood_2
...
posterior_n = posterior_{n-1} * likelihood_n

Pour que

posterior_n = prior * likelihood_1 * ... * likelihood_n

La commutativité de la multiplication implique que les mises à jour peuvent être effectuées dans n'importe quel ordre . Donc, si vous commencez avec un seul préalable, vous pouvez mélanger les observations de l'étude 1 et de l'étude 2 dans n'importe quel ordre, appliquer la formule de Bayes et arriver à la même finale posterior.

— unutbu
source

C'est parfaitement logique. Cela indique donc une raison possible de cet écart: la façon dont j'ai fait mes analyses (insérer les statistiques récapitulatives postérieures dans les arguments antérieurs de la prochaine étude) n'est pas comment fonctionne la mise à jour? C'est-à-dire: j'ai besoin de considérer l'intégralité du postérieur, pas seulement d'en brancher des statistiques récapitulatives dans les premiers des analyses ultérieures. Correct?

— Mark White

@MarkWhite Correct. Les distributions postérieures de votre première analyse devraient être vos priorités pour la seconde.

— Kodiologist

@Kodiologist et statistiques récapitulatives sur le postérieur! = Le postérieur

— Mark White

@MarkWhite Right.

— Kodiologist

Je dois d'abord souligner que:

Dans votre approche de test de signification, vous avez suivi un résultat négatif avec un modèle différent qui vous a donné une autre chance d'obtenir un résultat positif. Une telle stratégie augmente votre taux d'erreur de type I par projet. Les tests de signification nécessitent de choisir votre stratégie analytique à l'avance pour que les valeurs soient correctes. $p$
Vous accordez une grande confiance aux résultats de l'étude 1 en traduisant vos résultats de cet échantillon de manière si directe dans les premiers. N'oubliez pas, un a priori n'est pas seulement le reflet de constatations passées. Il doit coder l'intégralité de vos croyances préexistantes, y compris vos croyances avant les résultats précédents. Si vous admettez que l'étude 1 impliquait une erreur d'échantillonnage ainsi que d'autres types d'incertitude moins traitable, comme l'incertitude du modèle, vous devriez utiliser un a priori plus conservateur.

Le deuxième de ces points indique un important départ que vous avez fait de la convention bayésienne. Vous n'avez pas défini de priorité avant, puis adapté les deux modèles à la mode bayésienne. Vous ajustez un modèle de façon non bayésienne, puis vous l'utilisez pour les priors de l'autre modèle. Si vous utilisiez l'approche conventionnelle, vous ne verriez pas la dépendance à l'ordre que vous avez vue ici.

— Kodiologue
source

1. Comment ai-je suivi un résultat négatif avec un modèle différent? Qu'entendez-vous par «résultat négatif»? En ce qui concerne le taux d'erreur de type I à l'échelle de l'étude, il s'agit de deux études distinctes menées à des semaines l'une de l'autre. Quoi qu'il en soit, je crois qu'il faut faire une analyse exploratoire des données, donc je ne pense jamais que les valeurs p dans la pratique soient "correctes" ou que nous devrions nous attendre à ce qu'elles soient "totalement correctes". Si les gens ne faisaient que les tests auxquels ils pensaient auparavant, nous manquerions beaucoup de grandes découvertes qui se sont produites par accident - et nous gaspillerions des tonnes de données.

— Mark White

1. Un résultat négatif est un résultat non excitant ou décevant, ou plus spécifiquement dans le contexte d'un test de signification, un résultat négatif ne rejette pas une hypothèse nulle. Si vous ne pensez pas que les valeurs soient jamais correctes, bien sûr, alors le test de signification ne peut avoir aucune valeur même en théorie. Il n'y a rien de mal à une philosophie exploratoire, mais les tests de signification ne conviennent pas. Par «étude», je voulais dire «projet», au sens du mot «projet» englobant les deux études; J'ai corrigé cela.

p

$p$

— Kodiologist

2. Oui, mais vous vous retrouveriez avec des priors différents pour l'étude 2, ce qui ne finirait pas par mettre autant de crédibilité dans l'idée que l'étude 1 était exacte.

— Kodiologist

1. Le problème n'est pas que vous avez collecté plus de données et les avez analysées, mais que vous avez réanalysé les données des deux études (avec un modèle unifié avec un nouveau prédicteur) parce que vous avez obtenu des résultats négatifs la première fois que vous avez analysé le deuxième ensemble de données. Je n'ai jamais vu de raison de croire que le test de signification est réellement utile, mais la plupart de ceux qui croient qu'il semble que tous les théorèmes sur le test de signification soutiennent son utilité, et les théorèmes, comme tous les théorèmes, nécessitent certaines prémisses afin de tirer leurs conclusions.

— Kodiologist

@Kodiologist - Si vous ne pensez pas que les tests de signification soient jamais utiles, sur quelle base vous méfiez-vous (par exemple) du chercheur qui conclut que la plupart des gens ont probablement les yeux bleus parce que tout le monde dans leur échantillon de deux l'a fait?

— Obie 2.0

J'ai pensé que je pourrais faire une série de graphiques avec un problème différent, mais stylisé, pour vous montrer pourquoi il peut être dangereux de passer des méthodes fréquencistes aux méthodes bayésiennes et pourquoi l'utilisation de statistiques sommaires peut créer des problèmes.

Plutôt que d'utiliser votre exemple, qui est multidimensionnel, je vais le réduire à une dimension avec deux études dont la taille est de trois observations et trois observations.

Les données que j'utilise sont fausses. Les deux échantillons ont été forcés d'avoir une médiane de -1. Cela est important car il provient d'une fonction de densité simplifiée avec laquelle je dois souvent travailler. La densité fréquentiste et la fonction de vraisemblance bayésienne sont Il s'agit de la distribution de Cauchy avec une médiane inconnue, mais avec un paramètre d'échelle de un. Sous une forme tronquée, il est considéré comme le cas le plus courant en bourse, et apparaît dans les problèmes de physique avec des objets en rotation tels que les roches qui roulent en descente ou dans le fameux "problème du phare de Gull".

\frac{1}{π} \frac{1}{1 + (x - θ)^{2}} .

$\frac{1}{\pi}\frac{1}{1+(x-\theta)^2}.$

Je l'utilise parce que le théorème de la limite centrale ne s'applique pas, il manque de statistiques suffisantes, les observations extrêmes sont courantes, l'inégalité de Chebychev ne tient pas et toute une série de solutions normalement réalisables s'effondrent. Je l'utilise parce que cela donne de bons exemples sans avoir à mettre trop de travail dans le problème.

Il y a deux échantillons. Dans la première étude, les données étaient . Dans la deuxième étude, les données étaient . Cette distribution est agréable car les échantillons hautement concentrés sont communs et les échantillons avec une gamme massive sont communs. L'intervalle de confiance à 99,99% est normalement plutôt que plupart des utilisateurs sont habitués. $\{-5,-1,4\}$ $\{-1.5,-1,-.5\}$ $\pm{669}\sigma$ $\pm{3}\sigma$

La densité postérieure des deux études distinctes est

Comme cela est visuellement évident, prendre des statistiques sommaires de l'échantillon un pourrait être incroyablement trompeur. Si vous avez l'habitude de voir des densités agréables, unimodales, bien définies et nommées, cela peut rapidement sortir avec des outils bayésiens. Il n'y a pas de distribution nommée comme celle-ci, mais vous pourriez certainement la décrire avec des statistiques sommaires si vous ne l'aviez pas regardée visuellement. L'utilisation d'une statistique récapitulative pourrait être un problème si vous allez ensuite l'utiliser pour créer un nouveau précédent.

La distribution de confiance fréquentiste pour les deux échantillons est la même. Comme l'échelle est connue, le seul paramètre inconnu est la médiane. Pour une taille d'échantillon de trois, la médiane est la MVUE. Alors que la distribution de Cauchy n'a pas de moyenne ou de variance, la distribution d'échantillonnage de la médiane l'est. Il est moins efficace que l'estimateur du maximum de vraisemblance, mais il ne me faut aucun effort pour le calculer. Pour les échantillons de grande taille, la méthode de Rothenberg est la MVUE et il existe également des solutions de taille d'échantillon moyenne.

Pour la distribution Frequentist, vous obtenez

Notez que si vous aviez utilisé des statistiques récapitulatives, vous auriez obtenu les mêmes pour les deux échantillons. La distribution fréquentiste ne dépend pas beaucoup des données car le paramètre d'échelle est connu et ils ont les mêmes médianes. Les statistiques récapitulatives sont donc invariantes aux différences dans les échantillons, en raison de la médiane commune. Bien que vous fassiez remarquer à juste titre que cela est artificiel et que cela ne se produirait pas vraiment, la distorsion demeure. En utilisant un langage plus correct pour la pensée bayésienne, le modèle fréquentiste est plutôt que . $\Pr(x|\theta)$ $\Pr(\theta|x)$

La distribution Frequentist suppose une répétition infinie de la taille de l'échantillon trois tirages et montre la distribution limite pour la distribution des médianes de l'échantillon. La distribution bayésienne est donnée donc elle ne dépend que de l'échantillon observé et ignore les bonnes ou mauvaises propriétés que cet échantillon peut avoir. En effet, l'échantillon est inhabituel pour les méthodes bayésiennes et on peut donc prendre une pause pour en faire une forte déduction. C'est pourquoi le postérieur est si large, l'échantillon est inhabituel. La méthode fréquentiste contrôle les échantillons inhabituels, contrairement à la méthode bayésienne. Cela crée le cas pervers où la certitude supplémentaire du paramètre d'échelle rétrécit la solution fréquentiste, mais élargit le bayésien. $x$

L'articulation postérieure est le produit des deux postérieurs et par associativité de multiplication, peu importe l'ordre que vous utilisez. Visuellement, l'articulation postérieure est .

Il est évident que si vous aviez imposé une distribution simplifiée aux postérieurs et utilisé leurs statistiques sommaires, vous obtiendriez probablement une réponse différente. En fait, cela aurait pu être une réponse très différente. Si une région crédible à 70% avait été utilisée pour la première étude, cela aurait abouti à une région crédible déconnectée. L'existence d'intervalles déconnectés se produit parfois dans les méthodes bayésiennes. Le graphique de l'intervalle de densité le plus élevé et de l'intervalle de densité le plus faible pour l'étude 1 est

Vous remarquerez que le HDR est cassé par un éclat d'une région qui est en dehors de l'ensemble crédible.

Alors que bon nombre de ces problèmes disparaissent généralement dans les grands ensembles avec régression, permettez-moi de vous donner un exemple d'une différence naturelle dans la façon dont les méthodes bayésienne et fréquentiste traiteront les variables manquantes différemment dans la régression.

Considérons une régression bien construite avec une variable manquante, la météo. Supposons que les clients se comportent différemment les jours de pluie et les jours ensoleillés. Si cette différence est suffisante, il peut facilement y avoir deux modes postérieurs bayésiens. Un mode reflète le comportement ensoleillé, l'autre pluvieux. Vous ne savez pas pourquoi vous avez deux modes. Il peut s'agir d'une analyse statistique ou d'un point de données manquant, mais votre échantillon est inhabituel ou votre modèle a une variable omise.

La solution Frequentist ferait la moyenne des deux états et pourrait placer la ligne de régression dans une région où aucun comportement client ne se produit réellement, mais qui fait la moyenne des deux types de comportement. Il sera également biaisé à la baisse. Les problèmes peuvent se coincer dans l'analyse des résidus, en particulier s'il y a une grande différence dans les vrais écarts, mais ce n'est pas le cas. Cela peut être l'une de ces images étranges de résidus qui apparaîtront de temps en temps sur la validation croisée.

Le fait que vous ayez deux postérieurs différents à partir des mêmes données implique que vous n'avez pas multiplié les deux directement. Soit vous avez créé un postérieur à partir d'une solution Frequentist qui ne correspondait pas à un avec le postérieur bayésien, soit vous avez créé un a priori à partir des statistiques récapitulatives et la fonction de vraisemblance n'était pas parfaitement symétrique, ce qui est courant.

— Dave Harris
source