Limites sur


21

Si est une fonction convexe, l'inégalité de Jensen indique que , et mutatis mutandis lorsque est concave. De toute évidence, dans le pire des cas, vous ne pouvez pas dépasser la limite en termes de pour un convexe , mais existe-t-il une limite qui va dans ce sens si est convexe mais "pas trop convexe"? Existe-t-il une borne standard qui donne des conditions sur une fonction convexe (et éventuellement la distribution aussi, si nécessaire) qui vous permettrait de conclure que , oùf ( E [ x ] ) E [ f ( x ) ]ff(E[x])E[f(x)]E [ f ( x ) ] f ( E [ x ] ) f f f E [ f ( x ) ] φ ( f ) f ( E [ x ] ) φ ( f )fE[f(x)]f(E[x])fffE[f(x)]φ(f)f(E[x])φ(f)est une fonction de la courbure / degré de convexité de ? Quelque chose qui ressemble à un état de Lipschitz, peut-être?f


Voter pour fermer comme hors sujet. math.stackexchange.com peut-être?
Aryabhata du

7
Je pense que cette question doit rester ouverte; c'est le genre d'inégalité que de nombreux théoriciens du travail trouveraient régulièrement utile.
Aaron Roth

10
Je sais que c'est plus proche des mathématiques pures que la plupart des questions posées jusqu'à présent, mais je dirais que c'est sur le sujet car ce genre de chose revient fréquemment dans l'analyse des algorithmes randomisés (qui est l'application que j'ai dans esprit). Je pense que les mathématiques qui sont fortement utilisées en informatique devraient être considérées comme un jeu équitable pour les questions.
Ian

6
voter pour rester ouvert. définitivement sur le sujet
Suresh Venkat

1
Je vote également pour rester ouvert.
Jeffε

Réponses:


21

EDIT: la version originale a manqué une valeur absolue. Pardon!!

Salut Ian. Je décrirai brièvement deux exemples d'inégalités, l'un utilisant une borne de Lipschitz, l'autre utilisant une borne sur la dérivée seconde, puis je discuterai de certaines difficultés de ce problème. Bien que je sois redondant, car une approche utilisant un dérivé explique ce qui se passe avec plus de dérivés (via Taylor), il s'avère que la deuxième version dérivée est assez agréable.

Tout d'abord, avec une limite de Lipschitz: retravaillez simplement l'inégalité standard de Jensen. La même astuce s'applique: calculer l'expansion de Taylor à la valeur attendue.

Plus précisément, Soit mesure μ correspondante et fixons m : = E ( x ) . Si f a la constante Lipschitz L , alors par le théorème de TaylorXμm:=E(x)fL

f(x)=f(m)+f(z)(xm)f(m)+L|xm|,

(notez que x m et x > m sont possibles). En utilisant cela et en retravaillant la preuve Jensen (je suis paranoïaque et j'ai vérifié que la norme était bien sur wikipedia),z[m,x]xmx>m

E(f(X))=f(x)dμ(x)f(m)dμ(x)+L|xm|dμ(x)=f(E(X))+LE(|XE(X)|).

Maintenant, supposons . Dans ce cas,|f(x)|λ

f(x)=f(m)+f(m)(xm)+f(z)(xm)22f(m)+f(m)(xm)+λ(xm)22,

et donc

E(f(X))f(m)+f(m)(E(X)m)+λE((Xm)2)2=f(E(X))+λVar(X)2.

Je voudrais mentionner brièvement quelques éléments. Désolé s'ils sont évidents.

La première est que vous ne pouvez pas simplement dire "wlog " en décalant la distribution, car vous changez la relation entre et .f μE(X)=0fμ

Ensuite, la limite doit dépendre de la distribution d'une manière ou d'une autre. Pour voir cela, imaginez que et f ( x ) = x 2 . Quelle que soit la valeur de σ , vous obtenez toujours f ( E ( X ) ) = f ( 0 ) = 0 . En revanche, E ( f ( X ) ) = E ( XXGaussian(0,σ2)f(x)=x2σf(E(X))=f(0)=0 . Ainsi, en changeant σ , vous pouvez rendre arbitraire l'écart entre les deux quantités! Intuitivement, plus de masse est éloignée de la moyenne, et donc, pour toute fonction strictement convexe, E ( f ( X ) ) augmentera.E(f(X))=E(X2)=σ2σE(f(X))

Enfin, je ne vois pas comment obtenir une borne multiplicative comme vous le suggérez. Tout ce que j'ai utilisé dans ce post est standard: le théorème de Taylor et les bornes dérivées sont du pain et du beurre dans les bornes statistiques, et ils donnent automatiquement des erreurs additives et non multiplicatives.

Je vais y penser cependant et poster quelque chose. Une intuition vague est qu'il aura besoin de conditions très strictes sur la fonction et la distribution, et que la limite additive est en fait au cœur de celle-ci.


Chaque fois que je modifie, la réponse se heurte. Je vais donc souligner: la deuxième limite dérivée est serrée pour l'exemple que j'ai donné.
matus

Je pense que vous avez raison en ce que les limites additives sont les meilleures possibles sans conditions beaucoup plus fortes sur la fonction.
Ian

f(E(X))=0E(f(X))>0
matus

@Ian: Les preuves des inégalités de Chernoff et Azuma-Hoeffding utilisent des arguments qui rappellent cela, vous pouvez donc les lire pour vous inspirer. Voir par exemple le livre de Mitzenmacher et Upfal sur la randomisation en informatique.
Warren Schudy

3

E[x]=2N>>0ϵ>0ff(1)=f(3)=Nϵf(E[x])=f(2)=ϵϵff

E[f(x)]=Nϵ

N=Nϵ/ϵ=E[f(x)]/f(E[x])φ(f)

φ(f)

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.