Quelle est la justification théorique pour les procédures bayésiennes d'intervalle crédible?

(Pour voir pourquoi j'ai écrit ceci, consultez les commentaires ci-dessous ma réponse à cette question .)

Erreurs de type III et théorie de la décision statistique

Donner la bonne réponse à la mauvaise question est parfois appelé une erreur de type III. La théorie de la décision statistique est une formalisation de la prise de décision dans l'incertitude; il fournit un cadre conceptuel qui peut aider à éviter les erreurs de type III. L'élément clé du cadre s'appelle la fonction de perte . Il prend deux arguments: le premier est (le sous-ensemble pertinent de) le véritable état du monde (par exemple, dans les problèmes d'estimation des paramètres, la vraie valeur du paramètre ); le second est un élément de l'ensemble des actions possibles (par exemple, dans les problèmes d'estimation des paramètres, l'estimation $\theta$ $\hat{\theta})$ . La sortie modélise la perte associée à chaque action possible par rapport à chaque état réel possible du monde. Par exemple, dans les problèmes d'estimation des paramètres, certaines fonctions de perte bien connues sont:

la perte d'erreur absolue $L(\theta, \hat{\theta}) = |\theta - \hat{\theta}|$
la perte d'erreur quadratique $L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2$
Perte LINEX de Hal Varian $L(\theta, \hat{\theta}; k) = \exp(k(\theta - \hat{\theta})) - k(\theta - \hat{\theta}) - 1,\text{ } k \ne0$

Examen de la réponse pour trouver la question

Il y a un cas où l'on pourrait tenter de faire en sorte que les erreurs de type III puissent être évitées en se concentrant sur la formulation d'une fonction de perte correcte et en poursuivant le reste de l'approche théorique de la décision (non détaillée ici). Ce n'est pas mon mémoire - après tout, les statisticiens sont bien équipés de nombreuses techniques et méthodes qui fonctionnent bien même si elles ne dérivent pas d'une telle approche. Mais le résultat final, il me semble, est que la grande majorité des statisticiens ne connaissent pas et ne se soucient pas de la théorie de la décision statistique, et je pense qu'ils passent à côté. Pour ces statisticiens, je dirais que la raison pour laquelle ils pourraient juger la théorie de la décision statistique utile pour éviter les erreurs de type III est qu'elle fournit un cadre dans lequel demander toute procédure d'analyse de données proposée:quelle fonction de perte (le cas échéant) la procédure gère-t-elle de manière optimale? C'est-à-dire, dans quelle situation décisionnelle, exactement, fournit-elle la meilleure réponse?

Perte postérieure attendue

D'un point de vue bayésien, la fonction de perte est tout ce dont nous avons besoin. Nous pouvons à peu près ignorer le reste de la théorie de la décision - presque par définition, la meilleure chose à faire est de minimiser la perte attendue postérieure, c'est-à-dire de trouver l'action qui minimise . $a$ $\tilde{L}(a) = \int_{\Theta}L(\theta, a)p(\theta|D)d\theta$

(Et comme pour les perspectives non bayésiennes? Eh bien, c'est un théorème de la théorie de la décision fréquentiste - en particulier, le théorème de classe complet de Wald - que l' action optimale sera toujours de minimiser la perte attendue postérieure bayésienne par rapport à certains (peut-être incorrecte) La difficulté de ce résultat est qu’il s’agit d’un théorème de l’existence qui ne donne aucune indication quant à ce qui précède l’utilisation. Mais il restreint fructueusement la classe de procédures que nous pouvons "inverser" pour déterminer exactement quelle question nous En particulier, la première étape pour inverser toute procédure non bayésienne consiste à déterminer quelle procédure bayésienne (le cas échéant) elle reproduit ou se rapproche.)

Hé Cyan, tu sais que c'est un site de questions / réponses, non?

Ce qui m'amène - enfin - à une question statistique. Dans les statistiques bayésiennes, lors de la fourniture d'estimations d'intervalle pour des paramètres univariés, deux procédures d'intervalle crédible courantes sont l'intervalle crédible basé sur le quantile et l'intervalle crédible de densité postérieure la plus élevée. Quelles sont les fonctions de perte derrière ces procédures?

bayesian credible-interval decision-theory

— Cyan
source

Très agréable. Mais sont-elles les seules fonctions de perte justifiant ces procédures?

— invité

@Cyan >> Merci d'avoir posé et répondu à la question pour moi :) Je vais lire tout cela et voter autant que possible.

— Stéphane Laurent

Citation intéressante de la théorie de la décision statistique et de l'analyse bayésienne de Berger : «nous ne considérons pas les ensembles crédibles comme ayant un rôle clair de théorie de la décision, et nous nous méfions donc des approches« optimales »de la sélection d'un ensemble crédible»

— Simon Byrne

@Simon Byrne >> 1985 était il y a longtemps; Je me demande s'il pense toujours cela.

— Cyan

@Cyan: Je ne sais pas, mais la théorie de la décision est la seule partie des statistiques bayésiennes qui n'a pas beaucoup changé au cours des 27 dernières années (il y a eu quelques résultats intéressants, mais le livre de Berger est toujours la référence standard), en particulier par rapport à la popularité minimax se traduit par des statistiques fréquentistes.

— Simon Byrne

Réponses:

Dans l'estimation d'intervalle univarié, l'ensemble des actions possibles est l'ensemble des paires ordonnées spécifiant les points d'extrémité de l'intervalle. Soit un élément de cet ensemble représenté par . $(a, b),\text{ } a \le b$

Intervalles de densité postérieure les plus élevés

Soit la densité postérieure . Les intervalles de densité postérieure les plus élevés correspondent à la fonction de perte qui pénalise un intervalle qui ne contient pas la vraie valeur et pénalise également les intervalles proportionnellement à leur longueur: $f(\theta)$

$L_{HPD}(\theta, (a, b); k) = I(\theta \notin [a, b]) + k(b – a), \text{} 0 < k \le max_{\theta} f(\theta)$ ,

où est la fonction d'indicateur . Cela donne la perte postérieure attendue $I(\cdot)$

$\tilde{L}_{HPD}((a, b); k) = 1 - \Pr(a \le \theta \le b|D) + k(b – a)$ .

La définition de fournit la condition nécessaire pour un optimum local à l'intérieur de l'espace des paramètres: - exactement la règle pour les intervalles HPD, comme prévu. $\frac{\partial}{\partial a}\tilde{L}_{HPD} = \frac{\partial}{\partial b}\tilde{L}_{HPD} = 0$ $f(a) = f(b) = k$

La forme de donne un aperçu de la raison pour laquelle les intervalles HPD ne sont pas invariants à une transformation monotone augmentant du paramètre. Le -space intervalle HPD transformé en l' espace est différent du -space intervalle HPD parce que les deux intervalles correspondent à différentes fonctions de perte: le -space intervalle correspond à HPD une pénalité de longueur transformée . $\tilde{L}_{HPD}((a, b); k)$ $g(\theta)$ $\theta$ $g(\theta)$ $g(\theta)$ $g(\theta)$ $k(g(b) – g(a))$

Intervalles crédibles basés sur les quantiles

Considérons l'estimation ponctuelle avec la fonction de perte

$L_q(\theta, \hat{\theta};p) = p(\hat{\theta} - \theta)I(\theta < \hat{\theta}) + (1-p)(\theta - \hat{\theta})I(\theta \ge \hat{\theta}), \text{ } 0 \le p \le 1$ .

La perte attendue postérieure est

$\tilde{L}_q(\hat{\theta};p)=p(\hat{\theta}-\text{E}(\theta|\theta < \hat{\theta}, D)) + (1 - p)(\text{E}(\theta | \theta \ge \hat{\theta}, D)-\hat{\theta})$ .

La définition de donne l'équation implicite $\frac{d}{d\hat{\theta}}\tilde{L}_q=0$

$\Pr(\theta < \hat{\theta}|D) = p$ ,

c'est-à-dire que le optimal est le % de la distribution postérieure, comme prévu. $\hat{\theta}$ $(100p)$

Ainsi, pour obtenir des estimations d'intervalle basées sur les quantiles, la fonction de perte est

$L_{qCI}(\theta, (a,b); p_L, p_U) = L_q(\theta, a;p_L) + L_q(\theta, b;p_U)$ .

— Cyan
source

Une autre façon de motiver cela est de réécrire la fonction de perte sous la forme d'une somme (pondérée) de la largeur de l'intervalle plus la distance, le cas échéant, par laquelle l'intervalle ne couvre pas le vrai .

θ

$\theta$

— invité

Existe-t-il une autre façon de penser aux intervalles basés sur les quantiles qui ne fait pas directement référence aux quantiles ou à la longueur de l'intervalle. J'espérais quelque chose comme "l'intervalle quantile maximise / minimise la mesure moyenne / minimum / maximum / etc."

— Rasmus Bååth

@ RasmusBååth, vous demandez essentiellement: "quelles sont les conditions nécessaires sur la fonction de perte pour que les intervalles quantiles soient la solution à la minimisation de la perte postérieure attendue?" Mon intuition, juste de la façon dont les mathématiques fonctionnent dans la direction avant, est que c'est à peu près tout. Je ne l'ai cependant pas prouvé.

— Cyan

Je ne suis donc pas sûr d'une fonction de perte, mais je connais une procédure qui, selon la fonction de perte de point , entraînera soit un HPD soit un intervalle quantile. Supposons que vous avez des échantillons aléatoires tirage au sort de la partie postérieure. 1. Sélectionnez le point en avec la perte postérieure la plus faible et ajoutez ce point à votre intervalle. 2. Supprimez ce point de , en raison de cette suppression, la perte postérieure des points restants dans peut maintenant changer (en fonction de ). 3. Soyez heureux si votre intervalle a la couverture requise, sinon répétez à partir de (1). L = L0 donne HPD, L = L1 donne l'intervalle quantile.

L

$L$

s

$s$

s

$s$

s

$s$

s

$s$

L

$L$

— Rasmus Bååth,

juste mentionner que la section 5.5.3 de Bayesian Choice couvre la dérivation basée sur la perte d'ensembles crédibles ...

— Xi'an

Intervalles de taille minimale

Un choix évident d'une fonction de perte pour la sélection d'intervalles (à la fois bayésienne et fréquentiste) consiste à utiliser la taille des intervalles mesurée en termes de distributions marginales. Ainsi, commencez par la propriété souhaitée ou la fonction de perte, et dérivez les intervalles qui sont optimaux. Cela a tendance à ne pas être fait, comme l'illustre la présente question, même si cela est possible. Pour les ensembles crédibles bayésiens, cela correspond à minimiser la probabilité antérieure de l'intervalle, ou à maximiser la croyance relative, par exemple, comme indiqué dans Evans (2016). La taille peut également être utilisée pour sélectionner des ensembles de confiance fréquentistes (Schafer 2009). Les deux approches sont liées et peuvent être mises en œuvre assez facilement via des règles de décision qui incluaient de préférence des décisions avec de grandes informations mutuelles ponctuelles (Bartels 2017).

Bartels, C., 2017. Utilisation des connaissances préalables dans les tests fréquentistes. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3

Evans, M., 2016. Mesurer les preuves statistiques en utilisant la croyance relative. Revue de biotechnologie computationnelle et structurelle, 14, pp.91-96.

Schafer, CM et Stark, PB, 2009. Construire des régions de confiance de taille optimale attendue. Journal de l'American Statistical Association, 104 (487), pp.1080-1089.

— user36160
source

Je vois que vous citez Evans selon la suggestion de Keith O'Rourke ( andrewgelman.com/2016/07/17/… ). J'aime vraiment les trucs d'Evans.

— Cyan

Je suis très heureux d'avoir été informé par Keith sur un travail qui commence différemment mais aboutit à des conclusions similaires! Important de citer cela.

— user36160