Je vais essayer de réparer mon erreur précédente en montrant quelque chose en face - que les échantillons sont suffisants (la borne inférieure de est presque serré)! Voyez ce que vous pensez ....1/ϵ2Θ~(1ϵ2)1/ϵ2
L'intuition clé part de deux observations. Premièrement, pour que les distributions aient une distance de , il doit y avoir des points avec une probabilité élevée ( ). Par exemple, si nous avions points de probabilité , nous aurions . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3 ‖ D 1 - D 2 ‖ 2 ≤ √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
Deuxièmement, considérons des distributions uniformes avec une distance de . Si nous avions points de probabilité , alors ils différeraient chacun par et échantillons suffiraient. D'autre part, si nous avions points, ils devraient chacun différer de et encore échantillons (un nombre constant par point) suffit. On peut donc espérer que, parmi les points de forte probabilité mentionnés plus haut, il y a toujours un point différant "assez" que dessine le distingue. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 /L2ϵO(1)O(1)O(ϵ) O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
Algorithme. Étant donné et un paramètre de confiance , soit . Dessinez des échantillons de chaque distribution. Soit le nombre d'échantillons respectivement supérieur et inférieur pour le point . S'il y a un point pour lequel et , déclarez le distributions différentes. Sinon, déclarez-les de la même manière.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii∈[n]ai≥XXϵ2ai,biii∈[n] ai-bi≥√ai≥X8ai−bi≥ai−−√X√4
Les limites d'exactitude et de confiance ( ) dépendent du lemme suivant qui dit que toute la déviation de la distance provient de points dont les probabilités diffèrent par . L 2 Ω ( ϵ 2 )1−e−Ω(M)L2Ω(ϵ2)
Prétendre. Supposons . Soit. Soit . Puis
δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|∑i∈ S k δ 2 i ≥ϵ2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
Preuve . Nous avons
Relions la seconde somme; nous souhaitons maximiser sous réserve de . Puisque la fonction est strictement convexe et croissante, nous pouvons augmenter l'objectif en prenant n'importe quel et en augmentant by tout en diminuant by . Ainsi, l'objectif sera maximisé avec autant de termes que possible à leurs valeurs maximales, et le reste à∑ i ∉ S k δ 2 i ∑ i ∉ S k δi≤2x
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2δ i ≥ δ j δ i γ δ j γ 0 ϵ 2x↦x2δi≥δjδiγδjγ0. La valeur maximale de chaque terme est , et il y a au plus termes de cette valeur (puisqu'ils totalisent au plus ). Donc
2kϵ2k 2∑i∉Skδ 2 i ≤2k2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
Réclamation . Soit . Si , il existe au moins un point avec et .‖ D 1 - D 2 ‖ 2 ≥ ϵ i ∈ [ n ] p i > ϵ 2pi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n] δi≥ϵ √pi>ϵ24δi≥ϵpi√2
Preuve . Tout d'abord, tous les points de ont par (et ne peut pas être vide pour par la revendication précédente).p i ≥ δ i > ϵ 2Sk Skk>2pi≥δi>ϵ2kSkk>2
Deuxièmement, parce que , nous avons
or, réarrangement,
donc l'inégalité
vaut pour au moins un point dans . Maintenant, choisissez . ∑ i ∈ S k δ 2 i ≥ ϵ 2 ( 1∑ipi≤2
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
δ 2 i ≥piϵ2 ( 1∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
Skk=4◻δ2i≥piϵ2(12−1k)
Skk=4□
Réclamation (faux positifs) . Si , notre algorithme les déclare différents avec probabilité au plus .e - Ω ( M )D1=D2e−Ω(M)
Croquis . Considérons deux cas: et . Dans le premier cas, le nombre d'échantillons de ne dépassera pas de l'une ou l'autre distribution: le nombre moyen d'échantillons est et une limite de queue indique qu'avec la probabilité , les échantillons de ne dépassent pas leur moyenne par un additif ; si nous prenons soin de garder la valeur dans la limite de queue, nous pouvons l'union liée sur eux quel que soit le nombre de ces points (intuitivement, la limite diminue de façon exponentielle dans le nombre de points possibles).p i ≥ e 2 / seize i X / 8 < Xpi<ϵ2/16pi≥ϵ2/16iX/8e - Ω ( X / p i ) = ε 2 e<X/16 iX / 16 p ie−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
Dans le cas , nous pouvons utiliser une borne de Chernoff: Elle dit que, lorsque nous prenons échantillons et qu'un point est tracé avec la probabilité , la probabilité de différer de sa moyenne par est au plus . Ici, soit , donc la probabilité est limitée par .m p p m c √pi≥ϵ2/16mppm e - Ω ( ( c √cpm−−−√c= √e−Ω((cpm√)2/pm)=e−Ω(c2) e-Ω(X)=ϵ2e-Ω(M)c=X√16e−Ω(X)=ϵ2e−Ω(M)
Donc, avec la probabilité , (pour les deux distributions) le nombre d'échantillons de est dans de sa moyenne . Ainsi, notre test n'attrapera pas ces points (ils sont très proches les uns des autres), et nous pouvons l'union liée sur les d'entre eux. i √1−ϵ2e−Ω(M)i piXpiXϵ2−−−−√X√16 16/ϵ2◻piXϵ216/ϵ2□
Réclamation (faux négatifs) . Si , notre algorithme les déclare identiques avec une probabilité au plus .ϵ 2 e - Ω ( M )∥D1−D2∥2≥ϵϵ2e−Ω(M)
Croquis . Il y a un point avec et . La même limite de Chernoff que dans la revendication précédente dit qu'avec la probabilité , le nombre d'échantillons de diffère de sa moyenne d'au plus . C'est pour la distribution (WLOG) qui a ; mais il y a une probabilité encore plus faible du nombre d'échantillons de de la distributionp i > ε deux / quatre δ i ≥ ε √ipi>ϵ2/41-ϵ2e-Ω(M)ipim√δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√16p i = D 1 ( i )1 i 2pi=D1(i)=D2(i)+δii2 différant de sa moyenne par cette quantité d'additif (car la moyenne et la variance sont plus faibles).
Donc, avec une forte probabilité, le nombre d'échantillons de de chaque distribution est à de sa moyenne; mais leurs probabilités diffèrent par , donc leurs moyennes diffèrent par
√i δiXpiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
Donc, avec une probabilité élevée, pour le point , le nombre d'échantillons diffère d'au moins . √i ◻#samples(1)−−−−−−−−−−−√X√4□
Pour compléter les croquis, il faudrait montrer plus rigoureusement que, pour assez grand, le nombre d'échantillons de est assez proche de sa moyenne que, lorsque l'algorithme utilise plutôt que , cela ne change rien (ce qui devrait être simple en laissant une certaine marge de manœuvre dans les constantes).M√i √#samples−−−−−−−−√mean−−−−−√