Exemples simples du monde réel pour l'enseignement des statistiques bayésiennes?


10

Je voudrais trouver des "exemples du monde réel" pour l'enseignement des statistiques bayésiennes. Les statistiques bayésiennes permettent d'incorporer formellement les connaissances antérieures dans une analyse. Je voudrais donner aux étudiants quelques exemples simples du monde réel de chercheurs incorporant des connaissances antérieures dans leur analyse afin que les étudiants puissent mieux comprendre la raison pour laquelle on pourrait vouloir utiliser les statistiques bayésiennes en premier lieu.

Connaissez-vous des exemples simples du monde réel tels que l'estimation d'une moyenne de population, d'une proportion, d'une régression, etc. où les chercheurs incorporent formellement des informations antérieures? Je me rends compte que les Bayésiens peuvent également utiliser des prieurs "non informatifs", mais je suis particulièrement intéressé par des exemples réels où des prieurs informatifs (c'est-à-dire de véritables informations préalables) sont utilisés.


Je pense que le QI est un assez bon exemple.
hejseb

Pas strictement une réponse, mais lorsque vous lancez une pièce trois fois et que la tête revient deux fois, aucun élève ne croirait que cette tête était deux fois plus susceptible que la queue, ce qui est assez convaincant, mais certainement pas une vraie recherche.
Bernhard

1
Vous pouvez consulter cette réponse, écrite par la vôtre vraiment: stats.stackexchange.com/a/134385/61496
Yair Daon

Êtes-vous peut-être en train de confondre la règle de Bayes, qui peut être appliquée à la probabilité / estimation fréquentiste, et les statistiques bayésiennes où la «probabilité» est un résumé de la croyance?
AdamO

Réponses:


6

La théorie de la recherche bayésienne est une application intéressante du monde réel des statistiques bayésiennes qui a été appliquée à plusieurs reprises pour rechercher des navires perdus en mer. Pour commencer, une carte est divisée en carrés. Chaque carré se voit attribuer une probabilité préalable de contenir le navire perdu, en fonction de la dernière position connue, du cap, du temps manquant, des courants, etc. des choses comme la profondeur de l'eau. Ces distributions sont combinées pour prioriser les carrés de carte qui ont la plus forte probabilité de produire un résultat positif - ce n'est pas nécessairement l'endroit le plus probable pour le navire, mais l'endroit le plus probable pour trouver réellement le navire.


1
Bien, ce sont le genre d'applications décrites dans le livre divertissant The Theory That Can't Die: How Bayes 'Rule Cracked the Enigma Code, Hunted Down Russian Submarines et Emerged Triumphant from two century of controversy . De plus, Turing a utilisé ce genre de raisonnement pour casser l'énigme.
jpmuc

Probabiliste mais est-ce bayésien?
Andrew

5

Je pense que l'estimation de la production ou de la taille de la population à partir des numéros de série est intéressante si c'est un exemple explicatif traditionnel. Ici, vous essayez le maximum d'une distribution uniforme discrète. Selon votre choix de précédent, la probabilité maximale et les estimations bayésiennes différeront de manière assez transparente.

L'exemple le plus célèbre est peut-être l'estimation du taux de production des chars allemands pendant la Seconde Guerre mondiale à partir des bandes de numéros de série des chars et des codes de fabricants effectués dans le cadre fréquentiste de (Ruggles et Brodie, 1947). Une analyse alternative d'un point de vue bayésien avec des priors informatifs a été réalisée par (Downey, 2013), et avec des priors non informatifs inappropriés par (Höhle et Held, 2004). Les travaux de (Höhle et Held, 2004) contiennent également beaucoup plus de références à des traitements antérieurs dans la littérature et il y a aussi plus de discussion sur ce problème sur ce site.

Sources:

Chapitre 3, Downey, Allen. Pensez Bayes: Statistiques Bayésiennes en Python. "O'Reilly Media, Inc.", 2013.

Wikipédia

Ruggles, R .; Brodie, H. (1947). "Une approche empirique de l'intelligence économique dans la Seconde Guerre mondiale". Journal de l'American Statistical Association. 42 (237): 72.

Höhle, Michael et Leonhard Held. Estimation bayésienne de la taille d'une population. No 499. Document de discussion // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.


3

Il y a une belle histoire dans Cressie & Wickle Statistics for Spatio-Temporal Data , Wiley, à propos de la recherche (bayésienne) de l'USS Scorpion, un sous-marin qui a été perdu en 1968. Nous racontons cette histoire à nos étudiants et leur demandons d'exécuter ( recherche simplifiée) à l'aide d'un simulateur .

Des exemples similaires pourraient être construits autour de l'histoire du vol perdu MH370; vous voudrez peut-être consulter Davey et al., Bayesian Methods in the Search for MH370 , Springer-Verlag.


1

Voici un exemple d'estimation d'une moyenne, , à partir de données continues normales. Avant de plonger directement dans un exemple, je voudrais passer en revue certaines des mathématiques pour les modèles de données bayésiens normaux-normaux.θ

Considérons un échantillon aléatoire de n valeurs continues désignés par . Ici , le vecteur y = ( y 1 , . . . , Y ny1,...,yny=(y1,...,yn)T

y1,...,yn|θN(θ,σ2)

Ou comme plus typiquement écrit par Bayesian,

y1,...,yn|θN(θ,τ)

τ=1/σ2τ

yje

F(yje|θ,τ)=(τ2π)×eXp(-τ(yje-θ)2/2)

θ^=y¯

θ

θN(une,1/b)

La distribution postérieure que nous obtenons de ce modèle de données Normal-Normal (après beaucoup d'algèbre) est une autre distribution Normale.

θ|yN(bb+nτune+nτb+nτy¯,1b+nτ)

b+nτuney¯bb+nτune+nτb+nτy¯

θ|yθθ

Cela dit, vous pouvez maintenant utiliser n'importe quel exemple de manuel de données normales pour illustrer cela. Je vais utiliser l'ensemble de données airqualitydans R. Considérez le problème de l'estimation des vitesses moyennes du vent (MPH).

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

entrez la description de l'image ici

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

entrez la description de l'image ici

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

Dans cette analyse, le chercheur (vous) peut dire que, compte tenu des données + informations préalables, votre estimation du vent moyen, en utilisant le 50e centile, les vitesses devrait être de 10,00324, supérieure à la simple utilisation de la moyenne des données. Vous obtenez également une distribution complète, à partir de laquelle vous pouvez extraire un intervalle crédible à 95% en utilisant les quantiles 2,5 et 97,5.

Ci-dessous, j'inclus deux références, je recommande fortement de lire le court article de Casella. Il est spécifiquement destiné aux méthodes empiriques de Bayes, mais explique la méthodologie bayésienne générale pour les modèles normaux.

Références:

  1. Casella, G. (1985). Une introduction à l'analyse empirique des données de Bayes. The American Statistician, 39 (2), 83-87.

  2. Gelman, A. (2004). Analyse des données bayésiennes (2e éd., Textes en science statistique). Boca Raton, Floride: Chapman & Hall / CRC.


1

Un domaine de recherche où je pense que les méthodes bayésiennes sont absolument nécessaires est celui de la conception optimale.

XβX valeurs qui optimisent ce problème.

XβββX

  • n=0β^

  • β^

  • β=1β^=5Xβ=5X

  • β

XX ".

Xβ

βX

X


1

Je pensais à cette question récemment, et je pense avoir un exemple où le bayésien a du sens, avec l'utilisation d'une probabilité préalable: le rapport de probabilité d'un test clinique.

L'exemple pourrait être celui-ci: la validité de la coulée d'urine dans les conditions de pratique quotidiennes (Family Practice 2003; 20: 410-2). L'idée est de voir ce qu'implique un résultat positif du glissement d'urine sur le diagnostic d'une infection urinaire. Le rapport de probabilité du résultat positif est:

LR(+)=test+|H+test+|H-=Sensjebjeljety1-specjeFjecjety
H+H-

OR(+|test+)=LR(+)×OR(+)
OROR(+|test+)OR(+)

LR(+)=12,2LR(-)=0,29

p+=2/3p+|test+=0,96p+|test-=0,37

Ici, le test est bon pour détecter l'infection, mais pas si bon pour éliminer l'infection.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.