Limite inférieure pour tester la proximité dans la norme


11

Je me demandais s'il y avait une limite inférieure (en termes de complexité d'échantillon) connue pour le problème suivant:

Étant donné un exemple d'accès oracle à deux distributions inconnues , sur , testez (whp) siD1D2{1,,n}

  • D1=D2
  • oud2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu et al. [BFR + 00] a montré que les échantillons O(1ϵ4) étaient suffisants, mais je n'ai trouvé aucune mention d'une borne inférieure?

Je pense que l'on pourrait toujours montrer une limite inférieure Ω(1ϵ2) en réduisant la tâche de distinguer une pièce biaisée juste par rapport à ϵ à ce problème (simulant une distribution prise en charge sur seulement deux points, et répondant aux interrogations du testeur selon les lancers de pièces iid), mais cela laisse encore un écart quadratique ...

(Un autre point qui m'intéresserait est une borne inférieure dans l' estimation (jusqu'à un additif ϵ ) de cette distance L2 - encore une fois, je n'ai trouvé aucune référence à un tel résultat dans la littérature)

Merci de votre aide,


Ce problème de promesse semble très similaire à celui appelé différence statistique par Sahai et Vadhan, qui est un problème complet pour la classe SZK (connaissance zéro statistique); cependant, ils utilisent la distance . cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (Edit: je pense aussi qu'ils supposent que vous avez un circuit calculant les distributions, pas l'accès à Oracle.)L1
usul

Salut, comme mentionné dans un autre commentaire, la différence entre la norme et est en fait cruciale ici - en outre, dans le document, ils ont établi un seuil explicite (et non arbitraire) (dans l'une des remarques, ils expliquent que ce seuil doit satisfaire à une contrainte particulière); et que vous voulez distinguer par rapport (qui est en quelque sorte plus proche de l' estimation des tests de tolérance / distance que "tests habituels", où vous voulez tester vs (mais pour tout fixe )). L 1 τ = 1 / trois d 1τ d 21 - τ d 2 = 0 d 2e eL2L1τ=1/3d1τd21τd2=0d2ϵϵ
Clement C.

Réponses:


6

Il semble que les échantillons - comme nous l'avons montré ci-dessous - suffisent pour les tests, de sorte que la complexité de l'échantillon est exactement ; en fait, il s'avère que ce nombre d'échantillons nous suffit encore pour apprendre jusqu'à un additif rapport à la norme .Θ ( 1 / ϵ 2 ) D ϵ L 2O(1/ϵ2)Θ(1/ϵ2) DϵL2


Soit la fonction de densité empirique obtenue en dessinant iid échantillons et en définissant Ensuite où . Le ms1,...,sm~D D (k)D^ms1,,smDD - D2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
Xkk[n] ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk(pour ) ne sont pas indépendants, mais nous pouvons écrire sorte que pour , et appliquant l'inégalité de Markov k[n] m3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ED - D 2 2ε2m3ϵ2 P{D - D2e}1
EDD^22ϵ23
P{DD^2ϵ}13.

(Je faisais référence à la réponse d'Usul commençant par "Je vais essayer de réparer ma précédente erreur en montrant quelque chose en face [...]" - qui est en fait au-dessus de celle-ci. Je ne m'y attendais pas :)) Quant à l'apprentissage limite supérieure, on peut montrer que l'algorithme le plus naïf (c'est-à-dire celui qui tire échantillons et produit la densité empirique que cela définit) produit une distribution qui est, avec une probabilité constante, proche de dans la distance . D ε Dm=O(1/ϵ2)D^ϵDL2
Clement C.

@DW Je viens de modifier ma réponse.
Clement C.

3

Je vais essayer de réparer mon erreur précédente en montrant quelque chose en face - que les échantillons sont suffisants (la borne inférieure de est presque serré)! Voyez ce que vous pensez ....1/ϵ2Θ~(1ϵ2)1/ϵ2

L'intuition clé part de deux observations. Premièrement, pour que les distributions aient une distance de , il doit y avoir des points avec une probabilité élevée ( ). Par exemple, si nous avions points de probabilité , nous aurions . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3D 1 - D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

Deuxièmement, considérons des distributions uniformes avec une distance de . Si nous avions points de probabilité , alors ils différeraient chacun par et échantillons suffiraient. D'autre part, si nous avions points, ils devraient chacun différer de et encore échantillons (un nombre constant par point) suffit. On peut donc espérer que, parmi les points de forte probabilité mentionnés plus haut, il y a toujours un point différant "assez" que dessine le distingue. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 /L2ϵO(1)O(1)O(ϵ) O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

Algorithme. Étant donné et un paramètre de confiance , soit . Dessinez des échantillons de chaque distribution. Soit le nombre d'échantillons respectivement supérieur et inférieur pour le point . S'il y a un point pour lequel et , déclarez le distributions différentes. Sinon, déclarez-les de la même manière.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii[n]aiXXϵ2ai,biii[n] ai-biaiX8aibiaiX4

Les limites d'exactitude et de confiance ( ) dépendent du lemme suivant qui dit que toute la déviation de la distance provient de points dont les probabilités diffèrent par . L 2 Ω ( ϵ 2 )1eΩ(M)L2Ω(ϵ2)

Prétendre. Supposons . Soit. Soit . Puis δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2D1D22ϵδi=|D1(i)D2(i)|i S k δ 2 iϵ2(1-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

Preuve . Nous avons Relions la seconde somme; nous souhaitons maximiser sous réserve de . Puisque la fonction est strictement convexe et croissante, nous pouvons augmenter l'objectif en prenant n'importe quel et en augmentant by tout en diminuant by . Ainsi, l'objectif sera maximisé avec autant de termes que possible à leurs valeurs maximales, et le reste à i S k δ 2 i i S k δi2x

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2δ iδ j δ i γ δ j γ 0 ϵ 2xx2δiδjδiγδjγ0. La valeur maximale de chaque terme est , et il y a au plus termes de cette valeur (puisqu'ils totalisent au plus ). Donc 2kϵ2k 2iSkδ 2 i2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

Réclamation . Soit . Si , il existe au moins un point avec et .D 1 - D 2 2ϵ i [ n ] p i > ϵ 2pi=max{D1(i),D2(i)}D1D22ϵi[n] δiϵpi>ϵ24δiϵpi2

Preuve . Tout d'abord, tous les points de ont par (et ne peut pas être vide pour par la revendication précédente).p iδ i > ϵ 2Sk Skk>2piδi>ϵ2kSkk>2

Deuxièmement, parce que , nous avons or, réarrangement, donc l'inégalité vaut pour au moins un point dans . Maintenant, choisissez . i S k δ 2 iϵ 2 ( 1ipi2

iSkδi2ϵ2(121k)iSkpi,
δ 2 ipiϵ2 ( 1
iSk(δi2piϵ2(121k))0,
Skk=4
δi2piϵ2(121k)
Skk=4

Réclamation (faux positifs) . Si , notre algorithme les déclare différents avec probabilité au plus .e - Ω ( M )D1=D2eΩ(M)

Croquis . Considérons deux cas: et . Dans le premier cas, le nombre d'échantillons de ne dépassera pas de l'une ou l'autre distribution: le nombre moyen d'échantillons est et une limite de queue indique qu'avec la probabilité , les échantillons de ne dépassent pas leur moyenne par un additif ; si nous prenons soin de garder la valeur dans la limite de queue, nous pouvons l'union liée sur eux quel que soit le nombre de ces points (intuitivement, la limite diminue de façon exponentielle dans le nombre de points possibles).p ie 2 / seize i X / 8 < Xpi<ϵ2/16piϵ2/16iX/8e - Ω ( X / p i ) = ε 2 e<X/16 iX / 16 p ieΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

Dans le cas , nous pouvons utiliser une borne de Chernoff: Elle dit que, lorsque nous prenons échantillons et qu'un point est tracé avec la probabilité , la probabilité de différer de sa moyenne par est au plus . Ici, soit , donc la probabilité est limitée par .m p p m c piϵ2/16mppm e - Ω ( ( c cpmc=eΩ((cpm)2/pm)=eΩ(c2) e-Ω(X)=ϵ2e-Ω(M)c=X16eΩ(X)=ϵ2eΩ(M)

Donc, avec la probabilité , (pour les deux distributions) le nombre d'échantillons de est dans de sa moyenne . Ainsi, notre test n'attrapera pas ces points (ils sont très proches les uns des autres), et nous pouvons l'union liée sur les d'entre eux. i 1ϵ2eΩ(M)i piXpiXϵ2X16 16/ϵ2piXϵ216/ϵ2

Réclamation (faux négatifs) . Si , notre algorithme les déclare identiques avec une probabilité au plus .ϵ 2 e - Ω ( M )D1D22ϵϵ2eΩ(M)

Croquis . Il y a un point avec et . La même limite de Chernoff que dans la revendication précédente dit qu'avec la probabilité , le nombre d'échantillons de diffère de sa moyenne d'au plus . C'est pour la distribution (WLOG) qui a ; mais il y a une probabilité encore plus faible du nombre d'échantillons de de la distributionp i > ε deux / quatre δ iε ipi>ϵ2/41-ϵ2e-Ω(M)ipimδiϵpi/21ϵ2eΩ(M)ipimpimX16p i = D 1 ( i )1 i 2pi=D1(i)=D2(i)+δii2 différant de sa moyenne par cette quantité d'additif (car la moyenne et la variance sont plus faibles).

Donc, avec une forte probabilité, le nombre d'échantillons de de chaque distribution est à de sa moyenne; mais leurs probabilités diffèrent par , donc leurs moyennes diffèrent par i δiXpiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

Donc, avec une probabilité élevée, pour le point , le nombre d'échantillons diffère d'au moins . i#samples(1)X4

Pour compléter les croquis, il faudrait montrer plus rigoureusement que, pour assez grand, le nombre d'échantillons de est assez proche de sa moyenne que, lorsque l'algorithme utilise plutôt que , cela ne change rien (ce qui devrait être simple en laissant une certaine marge de manœuvre dans les constantes).Mi#samplesmean


Salut, merci pour cela - j'ai quelques questions sur l'algorithme et l'analyse (concernant quelques points que je ne suis pas sûr d'obtenir): en supposant que je veux seulement à la fin une probabilité constante de succès, cela signifie que constant, si je comprends bien (sauf si je n'ai pas compris ce que était)? Donc, dans ce cas, en passant à : selon l'algorithme, il devient - est-ce correct? M M2/3MMXΘ(log1ϵ)
Clement

@ClementC. Désolé je n'étais pas très clair! L'affirmation est que si nous tirons des échantillons , alors la probabilité de se tromper est , donc pour une probabilité constante de se tromper, ses échantillons . O ( e -1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
usul

OK, c'est ce que j'ai rassemblé. Je vais passer en revue la preuve en gardant cela à l'esprit - merci encore pour le temps que vous y avez consacré!
Clement C.

1

Vous pouvez commencer par essayer de résoudre ce problème pour le cas . Je suis à peu près sûr que des échantillons de seront nécessaires et suffisants, dans ce cas.n=2Θ(1/ϵ2)

Il est possible que vous trouviez utile d'étudier la conversion entre la distance et la distance (distance de variation totale).L2L1

  • On sait que, avec un échantillon, si les distributions sont connues, la distance de variation totale caractérise parfaitement l'avantage avec lequel on peut distinguer de . Ainsi, si la distance de variation totale est grande et que les distributions sont connues, on peut construire un test correct avec une forte probabilité; si la distance de variation totale est petite, on ne peut pas. Je ne sais pas ce que l'on peut dire du cas où la distance de variation totale est grande mais les distributions sont inconnues.D1D2

  • Ensuite, vous pouvez regarder les distributions de produits, et . En utilisant la distance de variation totale (distance ), il ne semble pas y avoir de bonnes limites qui relient à . Cependant, lorsque distance , je pense qu'il existe de bonnes estimations de en fonction de . (Malheureusement, je n'arrive pas à trouver une référence spécifique à ces estimations / limites, donc j'espère que je ne m'en souviens pas.) Il existe également des limites connues qui vous permettent d'estimer la distance en fonction de la distance . D n 2 L 1 | | D n 1 - D n 2 | | 1 | | D 1 - D 2 | | 1 L 2 | | D nD1nD2nL1||D1nD2n||1||D1D2||1L2| | D1-D2| | 2L1||D1nD2n||2||D1D2||2L1L2

  • Par conséquent, une approche que vous pourriez essayer serait de lier , puis à partir de là, obtenir une liaison sur .| | D n 1 - D n 2 | | 1||D1nD2n||2||D1nD2n||1

Je ne sais pas si cela mènera à quelque chose de bien ou non; c'est juste une idée. Les auteurs de l'article que vous citez auront probablement déjà essayé ou envisagé quelque chose comme ça.

Références éventuellement utiles:


Salut, merci pour votre réponse! Cependant, je m'intéresse à une borne inférieure asymptotique, lorsque . En particulier, la relation entre les normes et implique un facteur - ce qui signifie qu'elles sont en effet équivalentes pour constantes, mais asymptotiquement très différentes; utiliser la substance comme proxy n'est pas une option, pour autant que je sache (comme pour tester la proximité dans la distance , la complexité exacte est connue pour être [BFR + 10 , Val11 ]L 2 L 1 nL2L1 nL1L1Θ(n 2 / trois /nnL1L1Θ(n2/3/poly(ϵ))
Clement C.

0

EDIT: c'est incorrect! Voir la discussion dans les commentaires - je soulignerai la faille ci-dessous.

Je pense que nous pouvons dire que sont requis.1ϵ4

Définissez . Soit la distribution uniforme (probabilité de chaque point ) et que diffère de l'uniforme par une quantité additive en chaque point. Vérifiez que la distance est .n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

Nous devons donc distinguer une pièce d'un juste à flancs n à flancs Θ ( ε 2 ) pièce -biased. Je pense que cela devrait être au moins aussi difficile que de dire une 2 pièce juste d'un à flancs 2 à flancs Θ ( ε 2 ) pièce -biased, ce qui nécessiterait Θ ( 1nnΘ(ϵ2)22Θ(ϵ2)échantillons. Edit:c'est incorrect! La pièce a unbiaisadditif deϵ2, mais elle est biaisée multiplicativement par un facteur constant. Comme le souligne DW, cela signifie qu'un nombre constant d'échantillons par point distingueD1deD2.Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


Notez que est aussi loin que nous pouvons pousser cette ligne d'argument. Concrètement, supposons que nous essayions d'augmenternà, disons,11ϵ4n . Dans la distribution uniforme, chaque point a une probabilitéϵ3. Mais enD2, nous aurions besoin que chaque point varie de l'uniforme deϵ2,5. Ce n'est pas possible depuisϵ2,5ϵ3.1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

Plus abstraitement, supposons que nous voulons que chaque point varie de l'uniforme de . Ensuite, le plus que nous pouvons définir n serait 1ϵkn . Pour obtenir unedistanceL2deϵ, nous devons nous assurer que la racine carrée de la somme des distances estϵ, donc1ϵkL2ϵϵ, doncϵ k / 2 =ϵdonck=2, et on obtientn= 1n(ϵk)2=ϵϵk/2=ϵk=2 .n=1ϵ2

De plus, je pense que le même argument dit que, si nous sommes intéressés par la distance avec p > 1 , nous avons besoin de k = pLpp>1 , donc nous choisirionsn=1/ϵ pk=pp1 , donc le nombre d'échantillons serait1/ϵ2pn=1/ϵpp1 . Je pense que cela a du sens en tant que borne indépendante den. Il s'approche de l'infini commep1. Si vous tentiez de distinguer deux distributions àunedistanceL1deϵsans limite surn, je feraisninfiniment grand et répartirais la différence arbitrairement mince, de sorte que vous ne pourriez jamais les distinguer (c'est-à-direqu'aucun nombre fixe d'échantillons ne suffit pour tousn). Il approche également11/ϵ2pp1np1L1ϵnnn commep; cela a du sens comme limite parce que, pour lanormeL, nous pouvons définirn=11ϵ3pL et que chaque point diffère parΘ(ϵ); nous devons échantillonner un point1n=1ϵΘ(ϵ) fois pour être sûr qu'il diffère de l'uniforme, ce qui prendra11ϵ2 échantillons.1ϵ3


D2±1/ϵ2±ϵ2

1
D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2

n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2

1
O(1/ϵ2)m=106nD11000D210001000D1D2, car la différence entre 1 000 000 et 1 100 000 est de 100 écarts-types, c'est-à-dire énormes.
DW

1/ϵ2
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.