Exemples concrets d'une approche fréquentiste supérieure à une approche bayésienne [fermé]

Pouvez-vous m'aider à comprendre le point de vue fréquentiste dans le débat bayésien vs fréquentiste? J'ai beaucoup lu et toutes les sources que j'ai trouvées sont remplies d'équations complexes ou écrites d'un point de vue bayésien, ou les deux. Je n'ai pas trouvé un seul problème d'échantillon où l'approche fréquentiste produirait une sortie plus utile que l'approche bayésienne. J'ai l'impression de ne comprendre qu'un côté de ce débat et j'aimerais aussi comprendre l'autre côté. Je n'ai aucune expérience en statistique, donc j'apprécierais des exemples simples de cas où les méthodes fréquentistes produisent plus de valeur que les méthodes bayésiennes.

Un bon exemple serait un scénario de pari où un fréquentateur et un bayésien parieraient l'un contre l'autre sur un résultat futur et le fréquentateur a une valeur attendue positive.

bayesian frequentist

— Atte Juvonen
source

Vous pouvez sûrement trouver quelques dizaines de milliers de ces exemples simplement en parcourant ce site. À la lumière de cela, quel genre de réponses recherchez-vous?

— whuber

Après 2 heures de recherche sur Google, j'ai trouvé 0 exemples où l'approche fréquentiste est plus utile que la bayésienne. Si vous en avez 10 000, pouvez-vous en fournir 1? Merci.

— Atte Juvonen

Je ne sais pas si c'est au niveau souhaité, mais vous pouvez trouver une discussion pertinente dans le livre de L. Wasserman qui est également disponible en ligne. read.pudn.com/downloads158/ebook/702714/… . Si vous allez à la page 216, vous trouverez un exemple concernant les intervalles de confiance où l'approche fréquentiste surpasse le bayésien.

— JohnK

@whuber: Je ne crois pas que votre définition de "utile" diffère de la mienne d'une manière où il est utile d'en discuter. Je ne suis pas ici pour déduire ce fréquentiste bayésien. J'ai appris très récemment ces sujets et j'ai l'impression de ne comprendre qu'un côté du débat. J'aimerais aussi comprendre l'autre côté. Je trouve plus facile de saisir de nouveaux concepts via des exemples pratiques; dans ce cas, un exemple où le fréquentisme fournit quelque chose de valeur (où les méthodes bayésiennes échouent)

— Atte Juvonen

Je vote pour rouvrir. @whuber, le fait que plus de 20 000 personnes soient venues ici pour poser une question sur les techniques fréquentistes et aient obtenu une réponse utile n'implique pas que les techniques fréquentistes étaient plus appropriées que les techniques bayésiennes dans ces cas spécifiques; cela signifie simplement qu'ils sont répandus.

— amoeba

Un bon exemple serait un scénario de pari où un fréquentateur et un bayésien parieraient l'un contre l'autre sur un résultat futur et le fréquentateur aurait une valeur attendue positive.

Je ne vous donnerai pas cet exemple car un tel exemple favoriserait une approche bayésienne à moins que le bayésien ne choisisse un mauvais avant qui est un exemple de dérobade qui ne vaut pas vraiment la peine d'être écrit.

L'approche la plus fréquente n'est pas conçue pour obtenir la valeur attendue la plus élevée dans les scénarios de paris (heureusement, le monde des statistiques et des probabilités est beaucoup plus large que cela). Au contraire, les techniques fréquentistes sont conçues pour garantir certaines propriétés de fréquence souhaitables, en particulier celle de la couverture. Ces propriétés sont importantes pour l'estimation et l'inférence de paramètres dans le contexte de la recherche et de la recherche scientifiques.

Je vous encourage à consulter ce lien ici vers un article de blog du Dr Larry Wasserman. Il y parle plus en détail des garanties de fréquence (voir les exemples qu'il donne).

Supposons que nous disposions de données $Y$ et nous pensons qu'il est distribué selon une distribution conditionnelle $Y \sim f(Y|\theta^*)$ (si vous aimez, vous pouvez imaginer que $Y$ est normalement distribué et $\theta^*$ est la moyenne et / ou la variance). Nous ne connaissons pas la valeur de $\theta^*$ , nous devons donc l'estimer. Pour ce faire, nous pouvons utiliser une approche fréquentiste ou bayésienne.

Dans l'approche fréquentiste, nous obtiendrions une estimation ponctuelle $\hat \theta$ et un intervalle de confiance pour cette estimation. En supposant $\theta^*$ existe et le modèle est valide et bien comporté, le fréquentiste $(1-\alpha)$ l'intervalle de confiance est garanti pour contenir $\theta^*$ $(1-\alpha)$ % du temps quel que soit $\theta^*$ est en fait . $\theta^*$ pourrait être 0, il pourrait être 1 000 000, il pourrait être -53,2, cela n'a pas d'importance, la déclaration ci-dessus est vraie.

Cependant, ce qui précède n'est pas vrai pour les intervalles de confiance bayésiens, autrement appelés intervalles crédibles. En effet, dans un cadre bayésien, nous devons spécifier un $\theta \sim \pi(\theta)$ et simuler à partir de la partie postérieure, $\pi(\theta|Y) \propto f(Y|\theta)\pi(\theta)$ . Nous pouvons former $(1-\alpha)$ % d'intervalles crédibles utilisant l'échantillon résultant, mais la probabilité que ces intervalles contiennent $\theta^*$ dépend de la probabilité $\theta^*$ est sous notre préalable.

Dans un scénario de paris, nous pouvons penser que certaines valeurs sont moins susceptibles d'être $\theta^*$ puis d'autres, et nous pouvons attribuer un avant pour refléter ces croyances. Si nos croyances sont exactes, la probabilité de contenir $\theta^*$ dans l'intervalle crédible est plus élevé. C'est pourquoi les gens intelligents utilisant des techniques bayésiennes dans les scénarios de paris battent le fréquentiste.

Mais considérez un scénario différent, comme une étude où vous testez l'effet de l'éducation sur les salaires, appelez-le $\beta$ , dans un modèle de régression. Beaucoup de chercheurs préféreraient l'intervalle de confiance de $\beta$ d'avoir la propriété de fréquence de la couverture plutôt que de refléter leurs propres degrés de croyance concernant l'effet de l'éducation sur les salaires.

D'un point de vue pragmatique, il convient également de noter que dans mon exemple précédent, à mesure que la taille de l'échantillon approche de l'infini, les $\hat \theta$ et bayésien postérieur $\pi(\theta|Y)$ converger vers $\theta^*$ . Ainsi, à mesure que vous obtenez de plus en plus de données, la différence entre l'approche bayésienne et fréquentiste devient négligeable. Étant donné que l'estimation bayésienne est souvent (pas toujours) plus rigoureuse sur le plan mathématique et mathématique que l'estimation fréquentiste, les praticiens optent souvent pour des techniques fréquentistes lorsqu'ils disposent de «grands» ensembles de données. Cela est vrai même lorsque l'objectif principal est la prédiction par opposition à l'estimation / l'inférence de paramètres.

— Zachary Blumenfeld
source

+1 mais en ce qui concerne votre exemple de régression (tester l'effet de l'éducation sur les salaires), alors que je conviens que "beaucoup de recherches" (moi y compris!) Préfèrent utiliser des procédures fréquentistes, il y a beaucoup de gens, statisticiens inclus, disant que cela toute approche est erronée et ne fonctionne pas correctement ou même comme prévu. Ce n'est pas un endroit pour en débattre, mais il convient de mentionner que ce point de vue existe également.

— amoeba

@amoeba, à peu près tous ces arguments ne concernent pas les approches fréquentistes correctement utilisées en soi, mais leur utilisation excessive, leur mauvaise utilisation et leur mauvaise compréhension.

— John

Zachary, comme ce fil est fermé, cela vous dérangerait ou préférerait peut-être que votre réponse soit déplacée dans les stats.stackexchange.com/questions/194035 ? Cela peut être fait si ce fil est "fusionné" dans celui-ci (c'est-à-dire fermé en double et toutes les réponses sont déplacées). Je pense que cela pourrait être utile.

— amoeba

@amoeba bien sûr, si vous pensez que ce serait utile.

— Zachary Blumenfeld

"Je ne vous donnerai pas cet exemple parce qu'un tel exemple favoriserait une approche bayésienne à moins que le bayésien choisisse un mauvais avant qui est un exemple de dérobade qui ne vaut pas vraiment la peine d'être écrit." Je suis fortement en désaccord avec cela. C'est la raison fondamentale pour considérer les statistiques fréquentistes en premier lieu: les bons prieurs sont difficiles à trouver. Les résultats bayésiens sont trivialement meilleurs avec un bon a priori, mais l'obtention d'un bon a priori est très non trivial.

— Cliff AB