Distribution de probabilité spéciale

Si $p(x)$ est une distribution de probabilité avec des valeurs non nulles sur $[0,+\infty)$ , pour quel (s) type (s) de $p(x)$ existe-t-il une constante $c\gt 0$ telle que $\int_0^{\infty}p(x)\log{\frac{ p(x)}{(1+\epsilon)p({x}(1+\epsilon))}}dx \leq c \epsilon^2$ pour tout $0\lt\epsilon\lt 1$ ?

L'inégalité ci-dessus est en fait une divergence de Kullback-Leibler entre la distribution $p(x)$ et une version compressée de celle-ci ${(1+\epsilon)}p({x}{(1+\epsilon)})$ . J'ai découvert que cette inégalité vaut pour les distributions exponentielles, gamma et Weibull et je suis intéressé de savoir si cela fonctionne pour une plus grande classe de distributions de probabilité.

Une idée de ce que signifie cette inégalité?

— Sus20200
source

Puisque

ϵ

$\epsilon$ est positif, il serait compressé (dans la direction x) plutôt qu'étiré.

— Glen_b -Reinstate Monica

Cette question est ambiguë: quels sont vos quantificateurs? Voulez - vous cette inégalité de tenir pour tout

, au moins un

, ou autre chose? Est-ce que

est donné a priori ou voulez-vous dire qu'il devrait exister au moins une telle valeur de

? Et puisque vous mentionnez des classes de distributions de probabilité, par "

", voulez-vous dire une distribution spécifique ou voulez-vous peut-être une famille paramétrique de celles-ci?

ϵ

$\epsilon$

ϵ

$\epsilon$

c

$c$

c

$c$

p (x)

$p(x)$

— whuber

@whuber Merci pour vos commentaires. J'ai corrigé ma déclaration de problème pour clarifier les problèmes mentionnés. Je veux dire, pour quel

l'inégalité ci-dessus tient? La réponse pourrait être soit d'introduire une famille paramétrique de distributions ou de proposer une équation différentielle pour

qui suffise et donne l'inégalité souhaitée.

p (x)

$p(x)$

p (x)

$p(x)$

— Sus20200

Cette inégalité ne fonctionnerait-elle pas pour tout p (x) continu et avec un support infini? Vous calculez la divergence KL à l'intérieur d'une famille paramétrique (

. Si le KL est différenciable à 0, alors sa dérivée est 0. En prenant

pour être le maximum de la courbure de KL (pour

), nous avons la borne. Avec un travail supplémentaire, il pourrait être possible de lier C à partir des propriétés de p

ϵ \to p (x (1 + ϵ))

$\epsilon \rightarrow p(x(1+\epsilon))$

C

$C$

ϵ \in [0, 1]

$\epsilon \in [0,1]$

— Guillaume Dehaene

L = lim_{x \to 0} p (x) x = 0

$L = \lim_{x \rightarrow 0} p(x)x = 0$

L ϵ + O (ϵ^{2})

$L \epsilon + O(\epsilon^2)$

Préliminaires

Écrire

I_{p} (ϵ) = \int_{0}^{\infty} p (x) \log (\frac{p (x)}{(1 + ϵ) p (x (1 + ϵ))}) d x .

$\mathcal{I}_p(\epsilon) = \int_0^\infty p(x) \log\left(\frac{p(x)}{(1+\epsilon)p(x(1+\epsilon))}\right)\, dx.$

Les logarithmes et la relation entre et suggèrent d'exprimer à la fois et son argument sous forme d'exponentielles. À cette fin, définissez $p(x)$ $p(x(1+\epsilon))$ $p$

q (y) = \log (p (e^{y}))

$q(y) = \log(p(e^y))$

pour tout réel pour lequel le côté droit est défini et égal à où . Notez que le changement de variables entraîne et (en prenant pour la densité d'une distribution) que la loi de probabilité totale peut ainsi être exprimée comme $y$ $-\infty$ $p(e^y)=0$ $x=e^y$ $dx=e^y dy$ $p$

\begin{matrix} (1) & 1 = \int_{0}^{\infty} p (x) d x = \int_{R} e^{q (y) + y} d y . \end{matrix}

$1 = \int_0^\infty p(x)dx = \int_\mathbb{R} e^{q(y)+y} dy.\tag{1}$

Supposons que lorsque . $e^{q(y)+y}\to 0$ $y\to\pm\infty$ Cela exclut les distributions de probabilité avec une infinité de pics de densité près de ou . En particulier, si les queues de sont finalement monotones, implique cette hypothèse, montrant qu'elle n'est pas grave. $p$ $0$ $\infty$ $p$ $(1)$

Pour faciliter le travail avec les logarithmes, notez également que

1 + ϵ = e^{ϵ} + O (ϵ^{2}) .

$1+\epsilon = e^\epsilon + O(\epsilon^2).$

Étant donné que les calculs suivants seront effectués jusqu'à des multiples de , définissez $\epsilon^2$

δ = \log (1 + ϵ) .

$\delta = \log(1+\epsilon).$

On pourrait aussi bien remplacer par , avec correspondant à et positif correspondant à positif . $1+\epsilon$ $e^\delta$ $\delta=0$ $\epsilon=0$ $\delta$ $\epsilon$

Une analyse

Une manière évidente de faire échouer l'inégalité serait que l'intégrale diverge pour certains . Cela se produirait si, par exemple, il devait y avoir tout intervalle approprié de nombres positifs, aussi petit soit-il, dans lequel était identique à zéro mais n'était pas nul sur l'intervalle . Cela ferait que l'intégrande soit infini avec probabilité positive. $\mathcal{I}_p(\epsilon)$ $\epsilon \in (0, 1]$ $[u, v]$ $p$ $p$ $[u-\epsilon, v-\epsilon]$

Parce que la question n'est pas spécifique concernant la nature de , nous pourrions nous enliser dans des problèmes techniques concernant la fluidité de . Evitons de tels problèmes, en espérant tout de même avoir un aperçu, en supposant que partout a autant de dérivés que nous pourrions utiliser. (Deux suffiront si est continu.) Parce que cela garantit que reste borné sur tout ensemble borné, cela implique que n'est jamais nul lorsque . $p$ $p$ $q$ $q^{\prime\prime}$ $q$ $p(x)$ $x \gt 0$

Notez que la question concerne vraiment le comportement de lorsque rapproche de zéro par le haut. Puisque cette intégrale est une fonction continue de dans l'intervalle , elle atteint un maximum de lorsque est limité à tout intervalle positif , nous permettant de choisir , car évidemment $\mathcal{I}_p(\epsilon)$ $\epsilon$ $\epsilon$ $(0,1]$ $M_p(a)$ $\epsilon$ $[a,1]$ $c = M_p(a)/a^2$

c ϵ^{2} = M_{p} (a) {(\frac{ϵ}{a})}^{2} \geq M_{p} (a) \geq I_{p} (ϵ)

$c\epsilon^2 = M_p(a) \left(\frac{\epsilon}{a}\right)^2 \ge M_p(a) \ge \mathcal{I}_p(\epsilon)$

fait fonctionner l'inégalité. C'est pourquoi nous n'avons qu'à nous préoccuper du calcul modulo . $\epsilon^2$

Solution

En utilisant les changements de variable de à , de à et de à , calculons par le second ordre dans (ou ) dans l'espoir de réaliser une simplification. À cette fin, définir $x$ $y$ $p$ $q$ $\epsilon$ $\delta$ $\mathcal{I}_p(\epsilon)$ $\epsilon$ $\delta$

R (y, δ) δ^{2} = q (y + δ) - q (y) - δ q^{'} (y)

$\mathcal{R}(y, \delta) \delta^2 = q(y+\delta) - q(y) - \delta q^\prime(y)$

être le reste d'ordre dans l'expansion de Taylor de autour de . $2$ $q$ $y$

\begin{aligned} I_{p} (ϵ) & = \int_{R} e^{q (y) + y} (q (y) - q (y + δ) - δ) d y \\ = - \int_{R} e^{q (y) + y} (δ + δ q^{'} (y) + R (y, δ) δ^{2}) d y \\ = - δ \int_{R} e^{q (y) + y} (1 + q^{'} (y)) d y - δ^{2} \int_{R} e^{q (y) + y} R (y, δ) d y . \end{aligned}

$\eqalign{ \mathcal{I}_p(\epsilon) &= \int_\mathbb{R}e^{q(y) + y} \left(q(y) - q(y+\delta) - \delta\right)\, dy \\ &=-\int_\mathbb{R}e^{q(y) + y} \left(\delta + \delta q^\prime(y) + \mathcal{R}(y, \delta) \delta^2 \right)\, dy \\ &= -\delta\int_\mathbb{R}e^{q(y) + y} \left(1+q^\prime(y)\right)\, dy -\delta^2\int_\mathbb{R}e^{q(y) + y} \mathcal{R}(y, \delta)\, dy. }$

Changer les variables en dans l'intégrale de gauche montre qu'il doit disparaître, comme le fait l'hypothèse suivante . Changer les variables de retour à dans l'intégrale de droite donne $q(y)+y$ $(1)$ $x=e^y$

I_{p} (ϵ) = - δ^{2} \int_{R} p (x) R (\log (x), δ) d y = - δ^{2} E_{p} (R (\log (x), δ)) .

$\mathcal{I}_p(\epsilon) = - \delta^2 \int_\mathbb{R} p(x) \mathcal{R}(\log(x), \delta)\, dy = -\delta^2 \mathbb{E}_p\left(\mathcal{R}(\log(x), \delta)\right).$

L'inégalité se maintient (selon nos différentes hypothèses techniques) si et seulement si le coefficient de à droite est fini. $\delta^2$

Interprétation

C'est un bon point d'arrêt, car il semble découvrir le problème essentiel: est délimité par une fonction quadratique de précisément lorsque l'erreur quadratique dans l'expansion de Taylor de ne se produit pas. exploser ( par rapport à la distribution) comme approches . $\mathcal{I}_p(\epsilon)$ $\epsilon$ $q$ $y$ $\pm\infty$

Vérifions quelques-uns des cas mentionnés dans la question: les distributions exponentielles et gamma. (L'exponentielle est un cas particulier du gamma.) Nous n'avons jamais à nous soucier des paramètres d'échelle, car ils changent simplement les unités de mesure. Seuls les paramètres non à l'échelle comptent.

Ici, parce que pour , L'extension de Taylor autour d'un arbitraire estLe théorème de Taylor avec reste implique que est dominé par pour un suffisamment petit . Étant donné que l'espérance de est finie, l'inégalité s'applique aux distributions gamma. $p(x) = x^k e^{-x}$ $k \gt -1$

q (y) = - e^{y} + k y - \log Γ (k + 1) .

$q(y) = -e^y + k y - \log\Gamma(k+1).$

y

$y$

Constant + (k - e^{y}) δ - \frac{e^{y}}{2} δ^{2} + \dots .

$\text{Constant} + (k-e^y)\delta - \frac{e^y}{2}\delta^2 + \cdots.$

R (\log (x), δ)

$\mathcal{R}(\log(x),\delta)$

e^{y + δ} / 2 < x

$e^{y+\delta}/2 \lt x$

δ

$\delta$

x

$x$

Des calculs similaires impliquent l'inégalité des distributions Weibull, les distributions demi-normales, les distributions lognormales, etc. En fait, pour obtenir que nous aurions besoin des contre de violer au moins une hypothèse, nous forçant à regarder les distributions où est nulle sur un intervalle ou est pas différenciable en continu deux fois, ou possède une infinité de modes. Ce sont des tests faciles à appliquer à n'importe quelle famille de distributions couramment utilisées dans la modélisation statistique. $p$

— whuber
source