EDIT: la version originale a manqué une valeur absolue. Pardon!!
Salut Ian. Je décrirai brièvement deux exemples d'inégalités, l'un utilisant une borne de Lipschitz, l'autre utilisant une borne sur la dérivée seconde, puis je discuterai de certaines difficultés de ce problème. Bien que je sois redondant, car une approche utilisant un dérivé explique ce qui se passe avec plus de dérivés (via Taylor), il s'avère que la deuxième version dérivée est assez agréable.
Tout d'abord, avec une limite de Lipschitz: retravaillez simplement l'inégalité standard de Jensen. La même astuce s'applique: calculer l'expansion de Taylor à la valeur attendue.
Plus précisément, Soit mesure μ correspondante et fixons m : = E ( x ) . Si f a la constante Lipschitz L , alors par le théorème de TaylorXμm:=E(x)fL
f(x)=f(m)+f′(z)(x−m)≤f(m)+L|x−m|,
où (notez que x ≤ m et x > m sont possibles). En utilisant cela et en retravaillant la preuve Jensen (je suis paranoïaque et j'ai vérifié que la norme était bien sur wikipedia),z∈[m,x]x≤mx>m
E(f(X))=∫f(x)dμ(x)≤f(m)∫dμ(x)+L∫|x−m|dμ(x)=f(E(X))+LE(|X−E(X)|).
Maintenant, supposons . Dans ce cas,|f′′(x)|≤λ
f(x)=f(m)+f′(m)(x−m)+f′′(z)(x−m)22≤f(m)+f′(m)(x−m)+λ(x−m)22,
et donc
E(f(X))≤f(m)+f′(m)(E(X)−m)+λE((X−m)2)2=f(E(X))+λVar(X)2.
Je voudrais mentionner brièvement quelques éléments. Désolé s'ils sont évidents.
La première est que vous ne pouvez pas simplement dire "wlog " en décalant la distribution, car vous changez la relation entre et .f μE(X)=0fμ
Ensuite, la limite doit dépendre de la distribution d'une manière ou d'une autre. Pour voir cela, imaginez que et f ( x ) = x 2 . Quelle que soit la valeur de σ , vous obtenez toujours f ( E ( X ) ) = f ( 0 ) = 0 . En revanche, E ( f ( X ) ) = E ( XX∼Gaussian(0,σ2)f(x)=x2σf(E(X))=f(0)=0 . Ainsi, en changeant σ , vous pouvez rendre arbitraire l'écart entre les deux quantités! Intuitivement, plus de masse est éloignée de la moyenne, et donc, pour toute fonction strictement convexe, E ( f ( X ) ) augmentera.E(f(X))=E(X2)=σ2σE(f(X))
Enfin, je ne vois pas comment obtenir une borne multiplicative comme vous le suggérez. Tout ce que j'ai utilisé dans ce post est standard: le théorème de Taylor et les bornes dérivées sont du pain et du beurre dans les bornes statistiques, et ils donnent automatiquement des erreurs additives et non multiplicatives.
Je vais y penser cependant et poster quelque chose. Une intuition vague est qu'il aura besoin de conditions très strictes sur la fonction et la distribution, et que la limite additive est en fait au cœur de celle-ci.