Estimation du paramètre d'une distribution uniforme: a priori incorrect?

Nous avons N échantillons, , d'une distribution uniforme où est inconnue. Estimer partir des données. $X_i$ $[0,\theta]$ $\theta$ $\theta$

Donc, la règle de Bayes ...

$f(\theta | {X_i}) = \frac{f({X_i}|\theta)f(\theta)}{f({X_i})}$

et la probabilité est:

$f({X_i}|\theta) = \prod_{i=1}^N \frac{1}{\theta}$ (edit: quand pour tout , et 0 sinon - merci whuber) $0 \le X_i \le \theta$ $i$

mais sans aucune autre information sur , il semble que l'a priori devrait être proportionnel à (ie uniforme) ou à (Jeffreys avant?) sur mais alors mes intégrales ne ne converge pas, et je ne sais pas comment procéder. Des idées? $\theta$ $1$ $\frac{1}{L}$ $[0,\infty]$

— Volonté
source

Votre probabilité est incorrecte: elle sera nulle chaque fois que est inférieur au plus grand .

θ

$\theta$

X_{i}

$X_i$

— whuber

Pouvez-vous montrer quelles intégrales vous prenez?

Oui, donc, je suppose que je ne sais tout simplement pas comment gérer le mauvais avant. Par exemple, je veux écrire

f [X_{i}] = \int_{Θ} f (X_{i} | θ) f (θ) d θ

$f[X_i] = \int_\Theta f(X_i|\theta)f(\theta)d\theta$

— Le

Pour un a priori incorrect, = = et pour les antérieurs, vous obtenez égalementParce que presque sûrement, il est certain que les intégrales convergeront.

f [X_{i}] = \int_{Θ} f (X_{i} | θ) f (θ) d θ

$f[X_i] = \int_\Theta f(X_i|\theta)f(\theta)d\theta$

\int_{max (X_{i})}^{\infty} θ^{- N} d θ

$\int_{\max(X_i)}^\infty \theta^{-N}d\theta$

max (X_{i})^{1 - N} / (N - 1)

$\max(X_i)^{1-N}/(N-1)$

f (θ) \propto 1 / θ

$f(\theta)\propto 1/\theta$

max (X_{i})^{- N} / N .

$\max(X_i)^{-N}/N.$

max X_{i} > 0

$\max{X_i}\gt 0$

— whuber

La référence postérieure de Bernardo est Pareto - voir le catalogue des prieurs non informatifs .

— Stéphane Laurent

Réponses:

Cela a généré un débat intéressant, mais notez que cela ne fait vraiment pas beaucoup de différence sur la question d'intérêt. Personnellement, je pense que parce que est un paramètre d'échelle, l'argument du groupe de transformation est approprié, conduisant à un prior de $\theta$

\begin{matrix} p (θ | I) = \frac{θ^{- 1}}{\log (\frac{U}{L})} \propto θ^{- 1} & L < θ < U \end{matrix}

$\begin{array}& p(\theta|I)=\frac{\theta^{-1}}{\log\left(\frac{U}{L}\right)}\propto\theta^{-1} & L<\theta<U\end{array}$

Cette distribution a la même forme lors de la mise à l'échelle du problème (la probabilité reste également "invariante" lors de la mise à l'échelle). Le noyau de cet a priori, peut être dérivé en résolvant l'équation fonctionnelle . Les valeurs dépendent du problème et ne comptent vraiment que si la taille de l'échantillon est très petite (comme 1 ou 2). Le postérieur est une pareto tronquée, donnée par: $f(y)=y^{-1}$ $af(ay)=f(y)$ $L,U$

\begin{matrix} p (θ | D I) = \frac{N θ^{- N - 1}}{(L^{*})^{- N} - U^{- N}} & L^{*} < θ < U & where & L^{*} = m a x (L, X_{(N)}) \end{matrix}

$\begin{array}\\ p(\theta|DI)=\frac{N\theta^{-N-1}}{ (L^{*})^{-N}-U^{-N}} & L^{*}<\theta<U & \text{where} & L^{*}=max(L,X_{(N)}) \end{array}$

Où est le Nième la statistique d'ordre ou la valeur maximale de l'échantillon. On obtient la moyenne postérieure de Si nous mettez et obtenir l'expression plus simple .

X_{(N)}

$X_{(N)}$

E (θ | D I) = \frac{N ((L^{*})^{1 - N} - U^{1 - N})}{(N - 1) ((L^{*})^{- N} - U^{- N})} = \frac{N}{N - 1} L^{*} (\frac{1 - {[\frac{L^{*}}{U}]}^{N - 1}}{1 - {[\frac{L^{*}}{U}]}^{N}})

$E(\theta|DI)= \frac{ N((L^{*})^{1-N}-U^{1-N}) }{ (N-1)((L^{*})^{-N}-U^{-N}) }=\frac{N}{N-1}L^{*}\left(\frac{ 1-\left[\frac{L^{*}}{U}\right]^{N-1} }{ 1-\left[\frac{L^{*}}{U}\right]^{N} }\right)$

U \to \infty

$U\to\infty$

L \to 0

$L\to 0$

E (θ | D I) = \frac{N}{N - 1} X_{(N)}

$E(\theta|DI)=\frac{N}{N-1}X_{(N)}$

Mais supposons maintenant que nous utilisons un a priori plus général, donné par (notez que nous gardons les limites pour nous assurer que tout est correct - pas de calcul singulier alors ). Le postérieur est alors le même que ci-dessus, mais avec remplacé par - à condition que . En répétant les calculs ci-dessus, nous la moyenne postérieure simplifiée de $p(\theta|cI)\propto\theta^{-c-1}$ $L,U$ $N$ $c+N$ $c+N\geq 0$

E (θ | D I) = \frac{N + c}{N + c - 1} X_{(N)}

$E(\theta|DI)=\frac{N+c}{N+c-1}X_{(N)}$

Donc, l'a priori uniforme ( ) donnera une estimation de condition que (la moyenne est infinie pour ). Cela montre que le débat ici est un peu comme s'il faut utiliser ou comme diviseur dans l'estimation de la variance. $c=-1$ $\frac{N-1}{N-2}X_{(N)}$ $N\geq 2$ $N=2$ $N$ $N-1$

Un argument contre l'utilisation de l'uniforme impropre antérieur dans ce cas est que le postérieur est incorrect lorsque , car il est proportionnel à . Mais cela n'a d'importance que si ou est très petit. $N=1$ $\theta^{-1}$ $N=1$

— probabilitéislogique
source

Étant donné que le but ici est vraisemblablement d'obtenir une estimation valide et utile de , la distribution antérieure doit être cohérente avec la spécification de la distribution de la population dont provient l'échantillon. Cela ne signifie en aucune façon que nous «calculons» l'a priori en utilisant l'échantillon lui-même - cela annulerait la validité de la procédure entière. Nous savons que la population dont provient l'échantillon est une population de iid variables aléatoires uniformes, chacune comprise dans . Il s'agit d'une hypothèse maintenue et fait partie des informations antérieures que nous possédons (et cela n'a rien à voir avec l' échantillon , c'est-à-dire avec une réalisation spécifique d'un sous-ensemble de ces variables aléatoires). $\theta$ $[0,\theta]$

Supposons maintenant que cette population se compose de variables aléatoires (alors que notre échantillon se compose de réalisations de variables aléatoires). L'hypothèse maintenue nous dit que $m$ $n<m$ $n$

max_{i = 1, . . ., n} {X_{i}} \leq max_{j = 1, . . ., m} {X_{j}} \leq θ

$\max_{i=1,...,n}\{X_i\}\le \max_{j=1,...,m}\{X_j\} \le \theta$

compacité . Ensuite, nous avons qui peut également s'écrire $\max_{i=1,...,n}\{X_i\} \equiv X^*$ $\theta \ge X^*$

θ = c X^{*} c \geq 1

$\theta = cX^*\qquad c\ge 1$

La fonction de densité du des iid rv uniformes compris dans est $\max$ $N$ $[0,\theta]$

f_{X^{*}} (x^{*}) = N \frac{(x^{*})^{N - 1}}{θ^{N}}

$f_{X^*}(x^*) = N\frac {(x^*)^{N-1}}{\theta^N}$

pour le support , et zéro ailleurs. Ensuite, en utilisant et en appliquant la formule de changement de variable, nous obtenons une distribution préalable pour qui est cohérente avec l'hypothèse maintenue: $[0,\theta]$ $\theta = cX^*$ $\theta$

f_{p} (θ) = N \frac{(\frac{θ}{c})^{N - 1}}{θ^{N}} \frac{1}{c} = \frac{N}{c^{N}} θ^{- 1} θ \in [x^{*}, \infty]

$f_p(\theta) = N\frac {(\frac{\theta}{c})^{N-1}}{\theta^N}\frac 1c = \frac {N}{c^N} \theta^{-1}\qquad \theta \in [x^*, \infty]$

ce qui peut être incorrect si nous ne spécifions pas la constante convenablement. Mais notre intérêt réside dans le fait d'avoir un postérieur approprié pour , et aussi, nous ne voulons pas restreindre les valeurs possibles de (au-delà de la restriction impliquée par l'hypothèse maintenue). On laisse donc indéterminé. Puis en écrivant le postérieur est $c$ $\theta$ $\theta$ $c$
$\mathbf X = \{x_1,..,x_n\}$

f (θ ∣ X) \propto θ^{- N} \frac{N}{c^{N}} θ^{- 1} \Rightarrow f (θ ∣ X) = A \frac{N}{c^{N}} θ^{- (N + 1)}

$f(\theta \mid \mathbf X)\; \propto\; \theta^{-N}\frac {N}{c^N} \theta^{-1} \Rightarrow f(\theta \mid \mathbf X) = A\frac {N}{c^N} \theta^{-(N+1)}$

pour une constante de normalisation A. Nous voulons

\int_{S_{θ}} f (θ ∣ X) d θ = 1 \Rightarrow \int_{x^{*}}^{\infty} A \frac{N}{c^{N}} θ^{- (N + 1)} d θ = 1

$\int_{S_{\theta}}f(\theta \mid \mathbf X)d\theta =1 \Rightarrow \int_{x^*}^{\infty}A\frac {N}{c^N} \theta^{-(N+1)}d\theta =1$

\Rightarrow A \frac{N}{c^{N}} \frac{1}{- N} θ^{- N} |_{x^{*}}^{\infty} = 1 \Rightarrow A = (c x^{*})^{N}

$\Rightarrow A\frac {N}{c^N}\frac {1}{-N}\theta^{-N}\Big |_{x^*}^{\infty} = 1 \Rightarrow A = (cx^*)^N$

Insérer dans le postérieur

f (θ ∣ X) = (c x^{*})^{N} \frac{N}{c^{N}} θ^{- (N + 1)} = N (x^{*})^{N} θ^{- (N + 1)}

$f(\theta \mid \mathbf X) = (cx^*)^N\frac {N}{c^N} \theta^{-(N+1)} = N(x^*)^N\theta^{-(N+1)}$

Notez que la constante indéterminée de la distribution précédente s'est commodément annulée. $c$

Le postérieur résume toutes les informations que l'échantillon spécifique peut nous donner concernant la valeur de . Si nous voulons obtenir une valeur spécifique pour nous pouvons facilement calculer la valeur attendue de la partie postérieure, $\theta$ $\theta$

E (θ ∣ X) = \int_{x^{*}}^{\infty} θ N (x^{*})^{N} θ^{- (N + 1)} d θ = - \frac{N}{N - 1} (x^{*})^{N} θ^{- N + 1} |_{x^{*}}^{\infty} = \frac{N}{N - 1} x^{*}

$E(\theta\mid \mathbf X) = \int_{x^*}^{\infty}\theta N(x^*)^N\theta^{-(N+1)}d\theta = -\frac{N}{N-1}(x^*)^N\theta^{-N+1}\Big |_{x^*}^{\infty} = \frac{N}{N-1}x^*$

Y a-t-il une intuition dans ce résultat? Eh bien, à mesure que le nombre de augmente, le plus probable est que la réalisation maximale parmi eux sera de plus en plus proche de leur limite supérieure, - ce qui est exactement ce que reflète la valeur moyenne postérieure de : si, disons , , mais si . Cela montre que notre tactique concernant la sélection du prieur était raisonnable et cohérente avec le problème en question, mais pas nécessairement "optimale" dans un certain sens. $X$ $\theta$ $\theta$ $N=2 \Rightarrow E(\theta\mid \mathbf X) = 2x^*$ $N=10 \Rightarrow E(\theta\mid \mathbf X) = \frac{10}{9}x^*$

— Alecos Papadopoulos
source

Baser le prieur sur les données me semble louche. Comment justifiez-vous cette approche?

— whuber

Je n'ai rien contre le fait que votre prieur n'est pas "le meilleur". Où ai-je dit quelque chose comme ça? J'essaie juste de comprendre votre approche. Je ne comprends pas encore cette égalité. Si est constant dans l'égalité , cela signifie-t-il que et sont pas aléatoires? Soit dit en passant , vous n'utilisez le fait que dans la dérivation du prieur, pensez - vous? (cc @whuber)

c

$c$

θ = c X^{*}

$\theta=cX^*$

X^{*}

$X^*$

θ

$\theta$

c \geq 1

$c \geq 1$

— Stéphane Laurent

Et le support de votre a priori dépend des données? ( )

θ \in [x^{*}, \infty [

$\theta \in [x^*, \infty[$

— Stéphane Laurent

Un avant dépendant (même si ce n'est qu'à travers le support) sur les données sonne mal: vous ne pouvez pas connaître le maximum de l'échantillon avant que l'échantillon ne soit généré . De plus, vous prétendez que est une égalité presque sûre, avec à la fois et aléatoire (il y a donc une corrélation ). Mais cela implique que la distribution postérieure de (qui est la distribution conditionnelle de étant donné l'échantillon) est la masse de Dirac à . Et cela contredit votre dérivation de la distribution postérieure. ... (plus aucun personnage ...)

θ = c X^{*}

$\theta = cX^*$

θ

$\theta$

X^{*}

$X^*$

1

$1$

θ

$\theta$

θ

$\theta$

c x^{*}

$cx^*$

— Stéphane Laurent

La distribution postérieure de est Dirac à signifie que est . Le théorème de Bayes n'est pas la cause. Vous détruisez tout en supposant que . Cela implique , donc la distribution conditionnelle de étant est la masse de Dirac à , alors que l'hypothèse originale est que cette distribution est la distribution uniforme sur .

θ

$\theta$

c x^{*}

$cx^*$

θ

$\theta$

c x^{*}

$cx^*$

θ = c X^{*}

$\theta = cX^*$

X^{*} = θ / c

$X^*=\theta/c$

X^{*}

$X^*$

θ

$\theta$

θ / c

$\theta/c$

(0, θ)

$(0,\theta)$

— Stéphane Laurent

Théorème de distribution a priori uniforme (cas d'intervalle):

"Si la totalité de Vos informations sur externes aux données est capturée par la proposition unique alors Votre seule spécification antérieure logique cohérente en interne est $\theta$ $D$

B = {{Possible values for θ} = {the interval (a, b)}, a < b}

$B=\{\{\text{Possible values for } \theta\}=\{\text{the interval } (a,b)\},a<b\}$

f (θ) = Uniform (a, b)

$f(\theta)=\text{Uniform}(a,b)$

Ainsi, votre spécification antérieure doit correspondre à celle de Jeffrey si vous croyez vraiment au théorème ci-dessus. "

Ne fait pas partie du théorème de distribution préalable uniforme:

Alternativement, vous pouvez spécifier votre distribution précédente comme une distribution de Pareto, qui est la distribution conjuguée de l'uniforme, sachant que votre distribution postérieure devra être une autre distribution uniforme par conjugaison. Cependant, si vous utilisez la distribution Pareto, vous devrez alors spécifier les paramètres de la distribution Pareto d'une manière ou d'une autre. $f(\theta)$

D'abord, vous dites que la seule réponse logique possible en interne est une distribution uniforme, puis vous proposez une alternative. Cela me semble illogique et incohérent :-).

— whuber

Je ne suis pas d'accord. Par exemple, est également l'ensembleLorsque le PDF de est pour . Mais selon le "théorème" dont le pdf est dans cet intervalle. En bref, bien que la proposition ne dépende pas de la façon dont le problème est paramétré, la conclusion du "théorème" dépend de la paramétrisation, d'où elle est ambiguë.

B

$B$

{θ | θ^{3} \in (a^{3}, b^{3})} .

$\{\theta | \theta^3\in(a^3, b^3)\}.$

Θ \sim Uniform (a, b),

$\Theta\sim\text{Uniform}(a,b),$

Ψ = Θ^{3}

$\Psi=\Theta^3$

1 / (3 ψ^{2 / 3} (b - a))

$1/(3\psi^{2/3}(b-a))$

a^{3} < ψ < b^{3}

$a^3\lt \psi\lt b^3$

Ψ \sim Uniform (a^{3}, b^{3})

$\Psi\sim\text{Uniform}(a^3,b^3)$

1 / (b^{3} - a^{3})

$1/(b^3-a^3)$

— whuber

BabakP: Comment pourrait-on dire que c'est un théorème ? Un théorème est une affirmation mathématique avec une preuve mathématique. Ce «théorème» serait plus adéquatement appelé «principe», mais il n'est pas sensé car il est contradictoire, comme le montre @whuber.

— Stéphane Laurent

Merci pour la référence BabakP. Je voudrais souligner que le "croquis de preuve" est faux. Draper divise l'intervalle en un nombre fini de valeurs également espacées et «passe à la limite». N'importe qui peut diviser l'intervalle en valeurs espacées pour approximer la densité qu'il aime et passer de la même manière à la limite, produisant parfaitement arbitraire "uniquement des spécifications préalables logiquement cohérentes en interne". Ce genre de choses - à savoir, l'utilisation de mauvaises mathématiques dans le but de montrer que les non-Bayésiens sont illogiques - donne à l'analyse bayésienne une mauvaise réputation (à tort). (cc @ Stéphane.)

— whuber

@ Stéphane Veuillez pardonner mon insensibilité ( insensibilité ) - J'admire votre habileté à interagir ici dans une deuxième langue et je n'utilise pas sciemment des termes obscurs! Bogus est un adjectif qui vient d'un terme d'argot américain vieux de 200 ans faisant référence à une machine pour la contrefaçon d'argent. Dans ce cas, c'est une machine mathématique pour les théorèmes de la contrefaçon :-).

— whuber