Test d'hypothèse et distance de variation totale par rapport à la divergence de Kullback-Leibler

Dans ma recherche, je suis tombé sur le problème général suivant: j'ai deux distributions et sur le même domaine, et un grand nombre (mais fini) d'échantillons de ces distributions. Les échantillons sont distribués de manière indépendante et identique à partir de l'une de ces deux distributions (bien que les distributions puissent être liées: par exemple, peut être un mélange de et d'une autre distribution.) L'hypothèse nulle est que les échantillons proviennent de , l'hypothèse alternative est que échantillons proviennent de . $P$ $Q$ $Q$ $P$ $P$ $Q$

Je suis en train de caractériser les erreurs de type I et de type II pour tester l'échantillon, connaissant les distributions et . En particulier, je suis intéressé par une erreur de délimitation étant donné l'autre, en plus de la connaissance de et . $P$ $Q$ $P$ $Q$

J'ai posé une question sur math.SE concernant la relation entre la distance de variation totale entre et et test d'hypothèse, et j'ai reçu une réponse que j'ai acceptée. Cette réponse est logique, mais je n'ai toujours pas été en mesure de comprendre mon sens profond de la relation entre la distance de variation totale et le test d'hypothèse en ce qui concerne mon problème. J'ai donc décidé de me tourner vers ce forum. $P$ $Q$

Ma première question est la suivante: la variation totale est-elle liée à la somme des probabilités d'erreurs de type I et de type II indépendamment de la méthode de test d'hypothèse que l'on utilise? Essentiellement, tant qu'il existe une probabilité non nulle que l'échantillon ait pu être généré par l'une ou l'autre des distributions, la probabilité d'au moins une des erreurs doit être non nulle. Fondamentalement, vous ne pouvez pas échapper à la possibilité que votre testeur d'hypothèse fasse une erreur, quel que soit le traitement du signal que vous faites. Et la variation totale limite cette possibilité exacte. Ma compréhension est-elle correcte?

Il existe également une autre relation entre les erreurs de type I et II et les distributions de probabilité sous-jacentes et : la divergence KL . Ainsi, ma deuxième question est la suivante: la divergence KL ne s'applique-t-elle qu'à une méthode de test d'hypothèse spécifique (elle semble beaucoup revenir autour de la méthode du rapport de vraisemblance) ou peut-on l'appliquer généralement à toutes les méthodes de test d'hypothèse? S'il est applicable à toutes les méthodes de test d'hypothèse, pourquoi semble-t-il si différent de la limite de variation totale? Se comporte-t-il différemment? $P$ $Q$

Et ma question sous-jacente est la suivante: existe-t-il un ensemble de circonstances prescrites dans lesquelles je devrais utiliser l'une ou l'autre borne, ou s'agit-il uniquement d'une question de commodité? Quand le résultat doit-il être dérivé en utilisant une borne liée en utilisant l'autre?

Je m'excuse si ces questions sont triviales. Je suis un informaticien (donc cela me semble être un problème d'appariement de motifs fantaisistes :).) Je connais assez bien la théorie de l'information et j'ai également une formation universitaire en théorie des probabilités. Cependant, je commence tout juste à apprendre tous ces trucs de test d'hypothèse. Au besoin, je ferai de mon mieux pour clarifier mes questions.

— MBM
source

Réponses:

Littérature: La plupart des réponses dont vous avez besoin se trouvent certainement dans le livre de Lehman et Romano . Le livre d' Ingster et Suslina traite de sujets plus avancés et pourrait vous donner des réponses supplémentaires.

Réponse: Cependant, les choses sont très simples: (ou ) est la "vraie" distance à utiliser. Il n'est pas pratique pour le calcul formel (en particulier avec les mesures de produit, c'est-à-dire lorsque vous avez un échantillon de taille ) et d'autres distances (qui sont des limites supérieures de ) peuvent être utilisées. Permettez-moi de vous donner les détails. $L_1$ $TV$ $n$ $L_1$

Développement: Notons par

$g_1(\alpha_0,P_1,P_0)$ l'erreur minimale de type II avec l'erreur de type I pour et le null et l'alternative. $\leq\alpha_0$ $P_0$ $P_1$
$g_2(t,P_1,P_0)$ la somme des erreurs minimes possibles de type + I type II avec et le nul et l'alternative. $t$ $(1-t)$ $P_0$ $P_1$

Ce sont les erreurs minimales que vous devez analyser. Les égalités (et non les bornes inférieures) sont données par le théorème 1 ci-dessous (en termes de distance (ou distance TV si vous le souhaitez)). Les inégalités entre la distance et les autres distances sont données par le théorème 2 (notez que pour limiter les erreurs, vous avez besoin des limites supérieures de ou de ). $L_1$ $L_1$ $L_1$ $TV$

Lequel utiliser alors est une question de commodité car est souvent plus difficile à calculer que Hellinger ou Kullback ou . Le principal exemple d'une telle différence apparaît lorsque et sont des mesures de produit qui surviennent dans le cas où vous voulez tester contre avec un échantillon de taille iid. Dans ce cas et les autres sont obtenus facilement à partir de (idem pour et ) mais vous ne pouvez pas faire ça avec ... $L_1$ $\chi^2$ $P_1$ $P_0$ $P_i=p_i^{\otimes n}$ $i=0,1$ $p_1$ $p_0$ $n$ $h(P_1,P_0)$ $h(p_1,p_0)$ $KL$ $\chi^2$ $L_1$

Définition: L'affinité entre deux mesures et est définie comme . $A_1(\nu_1,\nu_0)$ $\nu_1$ $\nu_2$

A_{1} (ν_{1}, ν_{0}) = \int min (d ν_{1}, d ν_{0})

$A_1(\nu_1,\nu_0)=\int \min(d\nu_1,d\nu_0)$

Théorème 1 Si(la moitié de la distance TV), puis $|\nu_1-\nu_0|_1=\int|d\nu_1-d\nu_0|$

$2A_1(\nu_1,\nu_0)=\int (\nu_1+\nu_0)-|\nu_1-\nu_0|_1$ .
$g_1(\alpha_0,P_1,P_0)=\sup_{t\in [0,1/\alpha_0]} \left ( A_1(P_1,tP_0)-t\alpha_0 \right )$
$g_2(t,P_1,P_0)=A_1(t P_0,(1-t)P_1)$

J'ai écrit la preuve ici .

Théorème 2 Pour les distributions de probabilité et : $P_1$ $P_0$

\frac{1}{2} | P_{1} - P_{0} |_{1} \leq h (P_{1}, P_{0}) \leq \sqrt{K (P_{1}, P_{0})} \leq \sqrt{χ^{2} (P_{1}, P_{0})}

$\frac{1}{2}|P_1-P_0|_1\leq h(P_1,P_0)\leq \sqrt{K(P_1,P_0)} \leq \sqrt{\chi^2(P_1,P_0)}$

Ces limites sont dues à plusieurs statisticiens bien connus (LeCam, Pinsker, ...). est la distance de Hellinger, la divergence KL et la divergence chi carré. Ils sont tous définis ici . et les preuves de ces limites sont données (d'autres choses peuvent être trouvées dans le livre de Tsybacov ). Il y a aussi quelque chose qui est presque une limite inférieure de par Hellinger ... $h$ $K$ $\chi^2$ $L_1$

— Robin Girard
source

Merci pour la réponse, j'essaie maintenant de la digérer. Dans mon problème, j'ai autorisé une erreur de type I. J'ai également les deux distributions et . Je sais que la télévision entre eux (ainsi que KL). Donc, ce que vous dites, c'est que la télévision donne une limite inférieure plus stricte sur l'erreur de type II que KL, ce qui signifie que je devrais utiliser la télévision pour mon analyse si je souhaite une limite inférieure aussi stricte que possible?

P_{0}

$P_0$

P_{1}

$P_1$

— MBM

Et merci pour la suggestion de livre de Lehmann et Romano, cela semble très utile et pas trop au-dessus de ma tête. De plus, ma bibliothèque en possède une copie! :)

— MBM

@Bullmoose ce que le théorème 1 dit ici est que TV (ou L1) est lié à l'égalité à qui est liée à l'égalité à g_2 ou g_1 (la somme minimale des erreurs ou erreur de type II avec le type I contrôlé). Il n'y a pas d'inégalités ici. Les inégalités surviennent lorsque vous devez passer de la L1 à Kullback.

A_{1}

$A_1$

— Robin Girard

Malheureusement, je n'ai qu'une formation minimale en théorie des mesures. Je pense que je comprends en quelque sorte ce que sont et , mais je ne suis pas clair sur . Disons que j'ai deux distributions gaussiennes. Le téléviseur (ou L1) entre eux est Mais que serait ? D'après la définition, il ressemble à ...

g_{1}

$g_1$

g_{2}

$g_2$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} | \frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}} - \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}} | d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\left|\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1}-\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right|dx$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} min (\frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}}, \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}}) d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\min\left(\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1},\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right)dx$

— MBM

... mais comment correspond-il à cela depuis la première puce du théorème?

\int (ν_{1} + ν_{2})

$\int (\nu_1+\nu_2)$

— MBM

Réponse à votre première question: Oui, un moins la distance de variation totale est une borne inférieure de la somme des taux d'erreur de type I + type II. Cette limite inférieure s'applique quel que soit l'algorithme de test d'hypothèse que vous choisissez.

Justification: La réponse que vous avez obtenue sur Math.SE en fournit la preuve standard. Correction d'un test d'hypothèse. Soit l'ensemble des résultats sur lesquels ce test rejettera l'hypothèse nulle (un tel ensemble doit toujours exister). Ensuite, le calcul dans la réponse Math.SE prouve la borne inférieure. $A$

(À strictement parler, ce raisonnement suppose que votre test d'hypothèse est une procédure déterministe. Mais même si vous envisagez des procédures aléatoires, il est possible de montrer que la même limite s'applique toujours.)

— DW
source