Existe-t-il un estimateur non biaisé de la distance de Hellinger entre deux distributions?

Dans un contexte où l'on observe distribués à partir d'une distribution de densité , je me demande s'il existe un estimateur non biaisé (basé sur les ) de la distance de Hellinger à une autre distribution de densité , à savoir $X_1,\ldots,X_n$ $f$ $X_i$ $f_0$

H (f, f_{0}) = {1 - \int_{X} \sqrt{f (x) f_{0} (x)} d x}^{1 / 2} .

$\mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.$

— Xi'an
source

Donc f0 est connu et fixe. Mais f est-il connu ou issu d'une famille paramétrique ou le fait-il dans un cadre non paramétrique avec tout ce que vous savez sur f provenant de votre échantillon? Je pense que cela fait une différence lors de la tentative de réponse.

— Michael R. Chernick

@MichaelChernick: supposez que tout ce que vous savez sur est l'échantillon .

f

$f$

X_{1}, \dots, X_{n}

$X_1,\ldots,X_n$

— Xi'an

Je ne pense pas qu'il ait été calculé (s'il existe). S'il existe, alors AIC a un frère perdu.

Une attaque sur ce problème semble faisable si vous supposez que

f

$f$ et

f_{0}

$f_0$ sont discrets. Cela conduit à un estimateur évident (calculer la distance de Hellinger entre l'EDF et

f_{0}

$f_0$ ). Le bootstrap (théoriquement, pas via la simulation!) Nous donnera une idée du biais possible ainsi qu'un moyen de réduire (voire d'éliminer) le biais. Je garde espoir de réussir avec la distance au carré plutôt qu'avec la distance elle-même, car elle est mathématiquement plus maniable. L'hypothèse d'un

discret

f

$f$ ne pose aucun problème dans les applications; l'espace de discret

f

$f$ est de toute façon un sous-ensemble dense.

— whuber

Il me vient à l'esprit la preuve de Rosenblatt qu'il n'y a pas d'estimateur non biaisé «de bonne foi» de . Pouvons-nous surmonter cela et obtenir un estimateur non biaisé de ? Je ne sais pas.

f

$f$

H (f, f_{0})

$H(f,f_0)$

— Zen

Réponses:

Aucun estimateur non biaisé de ou de n'existe pour partir d'une classe non paramétrique assez large de distributions. $\mathfrak{H}$ $\mathfrak{H}^2$ $f$

Nous pouvons le montrer avec l'argument magnifiquement simple de

Bickel et Lehmann (1969). Estimation impartiale dans les familles convexes . The Annals of Mathematical Statistics, 40 (5) 1523–1535. ( projet euclide )

Corrige certaines distributions , et , avec les densités correspondantes , et . Soient représentent , et laisser est un estimateur de sur la base de échantillons iid . $F_0$ $F$ $G$ $f_0$ $f$ $g$ $H(F)$ $\mathfrak{H}(f, f_0)$ $\hat H(\mathbf X)$ $H(F)$ $n$ $X_i \sim F$

Supposons que soit sans biais pour les échantillons de toute distribution de la forme Mais alors pour que doit être un polynôme dans $\hat H$

M_{α} := α F + (1 - α) G .

$M_\alpha := \alpha F + (1 - \alpha) G .$

\begin{aligned} Q (α) & = H (M_{α}) \\ = \int_{x_{1}} \dots \int_{x_{n}} \hat{H} (X) d M_{α} (x_{1}) \dots d M_{α} (x_{n}) \\ = \int_{x_{1}} \dots \int_{x_{n}} \hat{H} (X) [α d F (x_{1}) + (1 - α) d G (x_{1})] \dots [α d F (x_{n}) + (1 - α) d G (x_{n})] \\ = α^{n} E_{X \sim F^{n}} [\hat{H} (X)] + \dots + (1 - α)^{n} E_{X \sim G^{n}} [\hat{H} (X)], \end{aligned}

$\begin{align} Q(\alpha) &= H(M_\alpha) \\&= \int_{x_1} \cdots \int_{x_n} \hat H(\mathbf X) \,\mathrm{d}M_\alpha(x_1) \cdots\mathrm{d}M_\alpha(x_n) \\&= \int_{x_1} \cdots \int_{x_n} \hat H(\mathbf X) \left[ \alpha \mathrm{d}F(x_1) + (1-\alpha) \mathrm{d}G(x_1) \right] \cdots \left[ \alpha \mathrm{d}F(x_n) + (1-\alpha) \mathrm{d}G(x_n) \right] \\&= \alpha^n \operatorname{\mathbb{E}}_{\mathbf X \sim F^n}[ \hat H(\mathbf X)] + \dots + (1 - \alpha)^n \operatorname{\mathbb{E}}_{\mathbf X \sim G^n}[ \hat H(\mathbf X)] ,\end{align}$

Q (α)

$Q(\alpha)$

α

$\alpha$ de degré au plus .

n

$n$

Maintenant, spécialisons-nous dans un cas raisonnable et montrons que le correspondant n'est pas polynomial. $Q$

Soit une distribution de densité constante sur : pour tout . (Son comportement en dehors de cette plage n'a pas d'importance.) Soit une distribution prise en charge uniquement sur , et une distribution prise en charge uniquement sur . $F_0$ $[-1, 1]$ $f_0(x) = c$ $\lvert x \rvert \le 1$ $F$ $[-1, 0]$ $G$ $[0, 1]$

Maintenant où et de même pour . Notez que , pour toutes les distributions , qui ont une densité.

\begin{aligned} Q (α) & = H (m_{α}, f_{0}) \\ = \sqrt{1 - \int_{R} \sqrt{m_{α} (x) f_{0} (x)} d x} \\ = \sqrt{1 - \int_{- 1}^{0} \sqrt{c α f (x)} d x - \int_{0}^{1} \sqrt{c (1 - α) g (x)} d x} \\ = \sqrt{1 - \sqrt{α} B_{F} - \sqrt{1 - α} B_{G}}, \end{aligned}

$\begin{align} Q(\alpha) &= \mathfrak{H}(m_\alpha, f_0) \\&= \sqrt{1 - \int_{\mathbb R} \sqrt{m_\alpha(x) f_0(x)} \mathrm{d}x} \\&= \sqrt{1 - \int_{-1}^0 \sqrt{c \, \alpha f(x)} \mathrm{d}x - \int_{0}^1 \sqrt{c \, (1 - \alpha) g(x)} \mathrm{d}x} \\&= \sqrt{1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G} ,\end{align}$

B_{F} := \int_{R} \sqrt{f (x) f_{0} (x)} d x

$B_F := \int_{\mathbb R} \sqrt{f(x) f_0(x)} \mathrm{d}x$

B_{G}

$B_G$

B_{F} > 0

$B_F > 0$

B_{G} > 0

$B_G > 0$

F

$F$

G

$G$

$\sqrt{1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G}$ n'est pas un polynôme de degré fini. Ainsi, aucun estimateur ne peut être sans biais pour sur toutes les distributions avec un nombre fini d'échantillons. $\hat H$ $\mathfrak{H}$ $M_\alpha$

De même, comme n'est pas non plus un polynôme, il n'y a pas d'estimateur pour qui est sans biais sur toutes les distributions avec un nombre fini d'échantillons. $1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G$ $\mathfrak{H}^2$ $M_\alpha$

Cela exclut à peu près toutes les classes de distributions non paramétriques raisonnables, à l'exception de celles dont les densités sont limitées ci-dessous (une hypothèse que les analyses non paramétriques font parfois). Vous pourriez probablement aussi tuer ces classes avec un argument similaire en rendant simplement les densités constantes ou quelque chose.

— Dougal
source

Je ne sais pas comment construire (s'il existe) un estimateur non biaisé de la distance de Hellinger. Il semble possible de construire un estimateur cohérent. Nous avons une densité connue fixe , et un échantillon aléatoire d'une densité . Nous voulons estimer où . Par le SLLN, nous savons que presque sûrement, comme $f_0$ $X_1,\dots,X_n$ $f>0$

H (f, f_{0}) = \sqrt{1 - \int_{X} \sqrt{f (x) f_{0} (x)} d x} = \sqrt{1 - \int_{X} \sqrt{\frac{f_{0} (x)}{f (x)}} f (x) d x}

$H(f,f_0) = \sqrt{1 - \int_\mathscr{X} \sqrt{f(x)f_0(x)}\,dx} = \sqrt{1 - \int_\mathscr{X} \sqrt{\frac{f_0(x)}{f(x)}}\;\;f(x)\,dx}$

= \sqrt{1 - E [\sqrt{\frac{f_{0} (X)}{f (X)}}]},

$= \sqrt{1 - \mathbb{E}\left[\sqrt{\frac{f_0(X)}{f(X)}}\;\;\right] }\, ,$

X \sim f

$X\sim f$

\sqrt{1 - \frac{1}{n} \sum_{i = 1}^{n} \sqrt{\frac{f_{0} (X_{i})}{f (X_{i})}}} \to H (f, f_{0}),

$\sqrt{1 - \frac{1}{n} \sum_{i=1}^n \sqrt{\frac{f_0(X_i)}{f(X_i)}}} \quad \rightarrow H(f,f_0) \, ,$

n \to \infty

$n\to\infty$ . Par conséquent, une façon raisonnable d'estimer serait de prendre un estimateur de densité (comme un estimateur de densité de noyau traditionnel) de , et de calculer

H (f, f_{0})

$H(f,f_0)$

\hat{f_{n}}

$\hat{f_n}$

f

$f$

\hat{H} = \sqrt{1 - \frac{1}{n} \sum_{i = 1}^{n} \sqrt{\frac{f_{0} (X_{i})}{\hat{f_{n}} (X_{i})}}} .

$\hat{H}=\sqrt{1 - \frac{1}{n} \sum_{i=1}^n \sqrt{\frac{f_0(X_i)}{\hat{f_n}(X_i)}}} \, .$

— Zen
source

@Zen: Bon point! Je considère cette réponse comme la réponse parce qu'elle m'a fait réaliser que ressemble beaucoup à un écart-type, pour lequel il n'existe pas d'estimateur sans biais. Quant à la variance de , pas de soucis: implique que cet estimateur a une variance finie.

H

$H$

{\hat{H}}_{n}^{2}

$\hat H^2_n$

E [(\sqrt{f_{0} (X) / f (X)})^{2}] = 1

$\mathbb{E}[(\sqrt{f_0(X)/f(X)})^2]=1$

— Xi'an

Merci pour la clarification de la variance de l'estimateur, Xi'an!

— Zen

Quelques travaux sur d'autres estimateurs cohérents: a) arxiv.org/abs/1707.03083 et travaux connexes basés sur des estimateurs de densité

-NN; (b) arxiv.org/abs/1402.2966 basé sur la correction des estimations de densité du noyau; (c) ieeexplore.ieee.org/document/5605355 basé sur un lien avec la classification. (Beaucoup d'entre eux sont basés sur des échantillons de

et de

, parce que c'est le travail que je connaissais au pied levé, mais je pense qu'il existe des variantes pour

connu .)

k

$k$

f

$f$

f_{0}

$f_0$

f_{0}

$f_0$

— Dougal