Pourquoi quelqu'un utiliserait-il une approche bayésienne avec un précédent non approprié «non informatif» au lieu de l'approche classique?


44

Si l’intérêt consiste simplement à estimer les paramètres d’un modèle (estimation ponctuelle et / ou par intervalle) et que les informations préalables ne sont pas fiables, faibles (je sais que cela est un peu vague, mais j’essaie d’établir un scénario où a priori est difficile) ... Pourquoi quelqu'un choisirait-il d'utiliser l'approche bayésienne avec des a priori inappropriés "non informatifs" au lieu de l'approche classique?


1
Merci à tous pour ces réflexions intéressantes sur cette partie controversée de la statistique bayésienne. J'ai lu et comparé vos points. Il existe des arguments intéressants validant son utilisation en termes de règles formelles, de fonctionnalité et d'interprétation. Je choisirai une réponse à un moment donné, mais je crains que cela ne soit une tâche très difficile.

Réponses:


24

Une approche bayésienne peut être retenue pour deux raisons, même si vous utilisez des priorations hautement non informatives:

  • Problèmes de convergence. Certaines distributions (binomiales, binomiales négatives et gamma généralisées sont celles que je connais le mieux) qui ont des problèmes de convergence une quantité de temps non négligeable. Vous pouvez utiliser un cadre "bayésien" - et des méthodes particulières de Monte Carlo à chaîne de Markov (MCMC) - pour résoudre essentiellement ces problèmes de convergence liés à la puissance de calcul et obtenir des estimations décentes de ces problèmes.
  • Interprétation. Une estimation bayésienne + intervalle de confiance de 95% a une interprétation plus intuitive qu'une estimation fréquentiste + intervalle de confiance de 95%, de sorte que certains peuvent préférer simplement les rapporter.

3
MCMC n'est pas vraiment une méthode bayésienne. Vous pouvez simplement établir des estimations à partir de votre probabilité cible (non postérieure) si le problème est la convergence.
scottyaz

16

Bien que les résultats soient très similaires, leurs interprétations diffèrent.

Les intervalles de confiance impliquent la notion de répéter une expérience plusieurs fois et de pouvoir capturer le paramètre réel 95% du temps. Mais vous ne pouvez pas dire que vous avez 95% de chances de le capturer.

Les intervalles crédibles (bayésien), en revanche, vous permettent de dire qu'il existe une "probabilité" que 95% des chances que l'intervalle capture la valeur vraie. Mise à jour: Une façon plus bayésienne de formuler cette idée serait que vous pouvez être sûr à 95% de vos résultats.

C'est simplement parce que vous êtes passé de à utilisant la règle de Baye.P ( H y p o t h e s i s | D a t a )P(Data|Hypothesis)P(Hypothesis|Data)


1
Je peux être confus ici, mais comment "la vraie valeur" s'insère-t-elle dans un cadre bayésien? Peut-être que vous vous référez au mode postérieur (ou moyen, ou .. etc.)?
Macro

Je fais référence à tout paramètre (valeur de population) que vous estimez avec votre statistique d'échantillon, que ce soit une moyenne, une différence moyenne, une pente de régression ... Bref, ce que vous recherchez.
Dominic Comtois

1
Oui, mais "valeur vraie" n'indique-t-il pas que le paramètre est une constante (c'est-à-dire que sa distribution est une masse ponctuelle)? Le concept même de regarder la distribution postérieure semble être en désaccord avec une telle conception des paramètres.
Macro

9

Je crois qu’une des raisons de le faire est qu’une analyse bayésienne vous fournit une distribution postérieure complète. Cela peut entraîner des intervalles plus détaillés que le fréquentiste typique . Une citation applicable de Reis et Stedinger 2005 est la suivante:±2σ

Fournir une distribution postérieure complète des paramètres est un avantage de l'approche bayésienne par rapport aux méthodes classiques, qui ne fournissent généralement qu'une estimation ponctuelle des paramètres représentés par le mode de la fonction de vraisemblance, et utilisent des hypothèses de normalité asymptotiques et une approximation quadratique de la fonction log-vraisemblance pour décrire les incertitudes. Avec le cadre bayésien, il n’est pas nécessaire de recourir à une approximation pour évaluer les incertitudes car la distribution a posteriori complète des paramètres est disponible. De plus, une analyse bayésienne peut fournir des intervalles crédibles pour des paramètres ou toute fonction des paramètres qui sont interprétés plus facilement que le concept d'intervalle de confiance dans les statistiques classiques (Congdon, 2001).

Ainsi, vous pouvez par exemple calculer des intervalles crédibles pour la différence entre deux paramètres.


6

Sir Harold Jeffreys était un ardent défenseur de l'approche bayésienne. Il a montré que si vous utilisiez des a priori diffus impropres, l'inférence bayésienne résultante serait la même que l'approche inférentielle fréquentiste (en d'autres termes, les régions crédibles bayésiennes sont les mêmes que les intervalles de confiance fréquentistes). La plupart des Bayésiens préconisent des antécédents informatifs appropriés. Il y a des problèmes avec les a priori inappropriés et certains peuvent affirmer qu'aucun antécédent n'est vraiment informatif. Je pense que les Bayésiens qui utilisent ces précédents de Jeffreys le font comme disciples de Jeffreys. Dennis Lindley , l'un des plus ardents défenseurs de l'approche bayésienne, avait beaucoup de respect pour Jeffreys, mais plaidait pour des prieurs informatifs.


1
+1 pour les premières lignes de votre réponse. À mon avis, la raison de choisir un avant Jeffreys sur un avant "non informatif" n'est pas simplement en tant que disciple de Jeffreys. C'est parce que c'est vraiment comme ne pas faire d'hypothèse alors qu'un prétendu soi-disant non informatif fait une hypothèse de paramétrage.
Neil G

1
@NeilG J'ai également constaté que certaines personnes préféraient les utiliser pour "Fail Frequentist" (au même sens que Fail Safe) lorsqu'ils utilisaient des priors non informatifs de manière à pouvoir être interprétés par un lecteur naïf.
Fomite

@EpiGrad: Que voulez-vous dire? (Je suis désolé, ma compréhension des statistiques fréquentistes est très mauvaise.)
Neil G

1
@NeilG Exploiter essentiellement le fait qu'un ancien Jeffrey vous donnera ce qu'une personne formée dans les domaines fréquentistes s'attend à voir. C'est un juste milieu quand travailler dans des méthodes bayésiennes bien placées n'a pas beaucoup pénétré.
Fomite

@NeilG J'ai également oublié que, comme dans ma réponse, si vous utilisez MCMC pour effectuer une analyse fréquentiste, en contournant les problèmes de convergence, le précédent de Jeffrey est également utile.
Fomite

6

L’approche bayésienne présente des avantages pratiques. Cela aide avec l'estimation, étant souvent obligatoire. Et cela permet de nouvelles familles de modèles et aide à la construction de modèles plus complexes (hiérarchiques, multiniveaux).

Par exemple, avec des modèles mixtes (comprenant des effets aléatoires avec des paramètres de variance), on obtient de meilleures estimations si les paramètres de variance sont estimés en les marginalisant par rapport à des paramètres de niveau inférieur (coefficients de modèle; cela s'appelle REML ). L'approche bayésienne le fait naturellement. Avec ces modèles, même avec REML, les estimations des paramètres de variance par probabilité maximale (ML) sont souvent nulles ou biaisées. Un bon avant pour les paramètres de variance aide.

Même si l’estimation ponctuelle ( MAP , maximum a posteriori) est utilisée, les a priori changent la famille du modèle. La régression linéaire avec un grand ensemble de variables quelque peu colinéaires est instable. La régularisation de la couche 2 est utilisée comme solution, mais elle peut être interprétée comme un modèle bayésien avec une estimation préalable gaussienne (non informative) et une estimation MAP. (La régularisation de la L1 est un préalable différent et donne des résultats différents. En réalité, le préalable peut être quelque peu informatif, mais il concerne les propriétés collectives des paramètres, pas un seul paramètre.)

Il existe donc des modèles courants et relativement simples dans lesquels une approche bayésienne est nécessaire simplement pour faire avancer les choses!

Les choses sont encore plus favorables avec des modèles plus complexes, tels que l' allocation de Dirichlet (LDA) latente utilisée dans l'apprentissage automatique. Et certains modèles sont intrinsèquement bayésiens, par exemple ceux basés sur des processus de Dirichlet .


6

practicalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.

6
βlog(σ2)

Lié au commentaire de @ Cyan.

4

Il y a plusieurs raisons:

  1. ±SE
  2. Les propriétés des grands échantillons sont généralement complètement identiques à certaines approches fréquentistes correspondantes.
  3. Il y a souvent une réticence considérable à s'accorder sur n'importe lequel des prieurs, peu importe ce que nous savons réellement, par crainte d'être accusé de «ne pas être objectif». En utilisant des priors non informatifs («pas de priors»), on peut prétendre qu’aucun problème de ce type n’existe, ce qui évitera les critiques de certains relecteurs.

Maintenant, pour ce qui est des inconvénients d’utiliser des a priori non informatifs, commençons par ce qui me semble le plus important, puis abordons quelques aspects techniques tout aussi importants:

  1. En toute honnêteté, l'interprétation de ce que vous obtenez est très semblable à celle de l'inférence fréquentiste. Vous ne pouvez pas simplement ré-étiqueter votre inférence de maximum de vraisemblance fréquentiste en inférence a posteriori maximum bayésienne et prétendre que cela vous dispense de tout souci quant aux comparaisons multiples, aux regards multiples sur les données et vous permet d'interpréter toutes les affirmations en termes de probabilité qu'une hypothèse est vrai. Certes, les erreurs de type I, etc., sont des concepts fréquentistes, mais les scientifiques devraient s’intéresser aux fausses déclarations et nous savons que le fait de faire ce qui précède pose des problèmes. Beaucoup de ces problèmes disparaissent (ou du moins sont beaucoup moins problématiques), si vous intégrez des éléments dans un modèle hiérarchique / faites quelque chose de Bayes empirique, mais cela revient généralement à générer implicitement des a priori via la procédure d'analyse en incluant la base de votre a priori dans votre modèle (et une alternative à cela consiste à formuler explicitement des a priori). Ces considérations sont fréquemment ignorées, à mon avis principalement pour mener le p-hacking bayésien (c'est-à-dire introduire la multiplicité, mais l'ignorer) avec la feuille de vigne d'une excuse que ce n'est pas un problème lorsque vous utilisez des méthodes bayésiennes (en omettant toutes les conditions doivent être remplies).
  2. Du côté plus «technique», les a priori non informatifs sont problématiques, car on ne vous garantit pas un postérieur correct. De nombreuses personnes ont doté les modèles bayésiens de prieurs non informatifs et ne se sont pas rendu compte que le postérieur n’était pas approprié. En conséquence, des échantillons MCMC ont été générés, qui étaient essentiellement sans signification.

Le dernier point est un argument en faveur de la préférence des a priori assez vagues (ou légèrement plus faiblement informatifs) qui assurent un postérieur correct. Certes, il peut parfois être difficile d’échantillonner à partir de ceux-ci également, et il peut être difficile de remarquer que tout le postérieur n’a pas été exploré. Cependant, il a été démontré que les méthodes bayésiennes avec des a priori vagues (mais corrects) présentaient dans de nombreux domaines de très bons petits échantillons d'un point de vue fréquentiste et vous pouvez certainement voir cela comme un argument pour utiliser toute différence par rapport aux méthodes avec des a priori non informatifs.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.