Inégalité de type Chernoff pour variable aléatoire avec 3 résultats


9

Supposons que nous ayons une variable aléatoire qui prend des valeurs non numériques a, b, c et que nous voulons quantifier la façon dont la distribution empirique de échantillons de cette variable s'écarte de la vraie distribution. L'inégalité suivante (de Cover & Thomas ) s'applique dans ce cas.n

Théorème 12.4.1 (théorème de Sanov): Soit iid Q ( x ) . Soit E P un ensemble de distributions de probabilité. Alors Q n ( E ) = Q n ( E P n ) ( n + 1 ) | X | 2 - n D ( P |X1,X2,,XnQ(x)
EP

Qn(E)=Qn(EPn)(n+1)|X|2nD(P||Q),
P=argminPED(P||Q),
EQ

Cette inégalité est assez lâche pour les petits . Pour les résultats binaires, , et la limite de Chernoff-Hoeffding est beaucoup plus serrée.n|X|=2

Existe-t-il une limite similaire pour ?|X|=3


Je pense que vous pouvez changer | X | à | X | -1, car le "dernier type", dans les méthodes og types, est donné une fois que vous connaissez le reste.
Thomas Ahle

Réponses:


6

Vous pouvez obtenir des bornes assez bonnes en considérant la variable aléatoire qui est 1 si et zéro sinon (pour s'étalant sur les essais et s'étalant sur les catégories). Pour tout fixe, les sont indépendants et donc peut être analysé en utilisant les bornes de Chernoff. Ensuite, effectuez une union liée sur .YijXi=j1in1j3jYijiYijj

Si ce qui précède ne suffit pas, je vous suggère de regarder le modèle des balles et des bacs, par exemple dans le manuel d'Upfal et de Mitzenmacher. Ce modèle est le même que le vôtre, sauf que certains de vos bacs peuvent être plus susceptibles que d'autres d'avoir des balles, n'est-ce pas? Il existe des techniques plus sophistiquées impliquant des approximations de Poisson dans ce modèle qui pourraient probablement être étendues à votre environnement avec des probabilités de bin non uniformes.


3

Il n'y a rien sur les bornes de Chernoff Hoeffding qui soit spécifique aux variables booléennes. Si sont des variables aléatoires à valeur réelle iid avec vous pouvez appliquer une borne Chernoff. Une bonne référence est "Concentration de mesure pour l'analyse d'algorithmes randomisés" ( http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.120.2561&rep=rep1&type=pdf )X1,,Xn0Xi1


Je m'intéresse aux variables catégorielles plutôt qu'aux valeurs réelles, a ajouté une clarification
Yaroslav Bulatov
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.