Question très intéressante, voici mon point de vue.
Il s'agit de coder les informations, puis tournez la manivelle bayésienne. Cela semble trop beau pour être vrai - mais les deux sont plus difficiles qu'ils ne le semblent.
Je commence par poser la question
Quelles informations sont utilisées lorsque nous nous inquiétons des comparaisons multiples?
Je peux penser à certains - le premier est le «dragage de données» - tester «tout» jusqu'à ce que vous obteniez suffisamment de succès / échecs (je pense que presque toutes les personnes formées aux statistiques seraient exposées à ce problème). Vous avez également moins sinistre, mais essentiellement le même "J'ai tellement de tests à exécuter - sûrement tous ne peuvent pas être corrects".
Après réflexion, une chose que je remarque est que vous n'avez pas tendance à entendre beaucoup d'hypothèses spécifiques ou de comparaisons spécifiques. Tout tourne autour de la «collection» - cela déclenche ma réflexion vers l'échangeabilité - les hypothèses comparées sont «similaires» les unes aux autres d'une certaine manière. Et comment encodez-vous l'échangeabilité en analyse bayésienne? - hyper-priors, modèles mixtes, effets aléatoires, etc !!!
Mais l'interchangeabilité ne vous y apporte qu'une partie du chemin. Tout est-il échangeable? Ou avez-vous une «rareté» - comme seulement quelques coefficients de régression non nuls avec un large bassin de candidats. Les modèles mixtes et les effets aléatoires normalement distribués ne fonctionnent pas ici. Ils restent "coincés" entre le bruit d'écrasement et les signaux intacts (par exemple, dans votre exemple, gardez les paramètres "true" de locationB et locationC égaux, et définissez arbitrairement grand ou petit paramètre locationA "true" et regardez le modèle mixte linéaire standard échouer.) . Mais il peut être corrigé - par exemple avec des prieurs "à pointe et dalle" ou des prieurs "fer à cheval".
Il s'agit donc davantage de décrire le type d'hypothèse dont vous parlez et d'obtenir autant de caractéristiques connues reflétées dans le précédent et la probabilité. L'approche d'Andrew Gelman n'est qu'un moyen de gérer implicitement une large classe de comparaisons multiples. Tout comme les moindres carrés et les distributions normales ont tendance à bien fonctionner dans la plupart des cas (mais pas tous).
En ce qui concerne la façon dont cela fonctionne, vous pourriez penser à une personne raisonnant comme suit - le groupe A et le groupe B pourraient avoir la même moyenne - J'ai regardé les données, et les moyens sont "proches" - Par conséquent, pour obtenir une meilleure estimation pour les deux, je devrais regrouper les données, car ma pensée initiale était qu'elles ont la même moyenne. - S'ils ne sont pas les mêmes, les données prouvent qu'ils sont "proches", donc la mise en commun "un peu" ne me fera pas trop mal si mon hypothèse était fausse (tous les modèles sont faux, certains sont utiles)
Notez que tout ce qui précède repose sur la prémisse initiale "ils pourraient être les mêmes". Otez cela, et il n'y a aucune justification pour la mise en commun. Vous pouvez probablement aussi voir une façon de penser "distribution normale" des tests. «Zéro est le plus probable», «sinon zéro, alors près de zéro est le plus probable», «les valeurs extrêmes sont peu probables». Considérez cette alternative:
- les moyennes des groupes A et B peuvent être égales, mais elles peuvent aussi être radicalement différentes
Ensuite, l'argument concernant la mise en commun "un peu" est une très mauvaise idée. Il vaut mieux choisir la mise en commun totale ou la mise en commun zéro. Beaucoup plus comme un Cauchy, un pic et une dalle, type de situation (beaucoup de masse autour de zéro et beaucoup de masse pour les valeurs extrêmes)
Il n'est pas nécessaire de traiter l'ensemble des comparaisons multiples, car l'approche bayésienne incorpore les informations qui nous amènent à nous inquiéter dans le précédent et / ou la vraisemblance . Dans un sens, il s'agit plutôt d'un rappel de bien réfléchir aux informations dont vous disposez et de vous assurer que vous les avez incluses dans votre analyse.