Comprendre la preuve d'un lemme utilisé dans l'inégalité de Hoeffding


11

J'étudie les notes de cours de Larry Wasserman sur les statistiques qui utilisent Casella et Berger comme texte principal. Je travaille sur ses notes de cours ensemble 2 et je suis resté coincé dans la dérivation du lemme utilisé dans l'inégalité de Hoeffding (pp.2-3). Je reproduis la preuve dans les notes ci-dessous et après la preuve je montrerai où je suis coincé.


Lemme

Supposons que et que . Alors .E(X)=0aXbE(etX)et2(ba)2/8

Preuve

Puisque , nous pouvons écrire comme une combinaison convexe de et , à savoir où . Par convexité de la fonction on aaXbXabX=αb+(1α)aα=Xabayety

etXαetb+(1α)eta=Xabaetb+bXbaeta

Prenez les attentes des deux côtés et utilisez le fait pour obtenirE(X)=0

E(etX)abaetb+bbaeta=eg(u)

où , et . Notez que . Aussi pour tout .g ( u ) = - γ u + log ( 1 - γ + γ e u ) γ = - a / ( b - a ) g ( 0 ) = gu=t(ba)g(u)=γu+log(1γ+γeu)γ=a/(ba)gg(0)=g(0)=0u>0g(u)1/4u>0

Selon le théorème de Taylor, il existe un tel que g ( u ) = g ( 0 ) + u gε(0,u)g(u)=g(0)+ug(0)+u22g(ε)=u22g(ε)u28=t2(ba)28

D'où .E(etX)eg(u)et2(ba)28


Je pourrais suivre la preuve jusqu'à

u,g(u),γE(etX)abaetb+bbaeta=eg(u) mais je n'arrive pas à comprendre comment dériver .u,g(u),γ


3
Il est intéressant de noter que la valeur maximale de est et donc que le résultat est effectivement qui semble bien trop familier pour naître d'une pure coïncidence. Je soupçonne qu'il existe un autre moyen, peut-être plus simple, de dériver le résultat via un argument probabiliste. σ 2 max = ( b - a ) 2 / 4 E [ e t X ] e σ 2 max t 2 / 2var(X)σmax2=(ba)2/4
E[etX]eσmax2t2/2
Dilip Sarwate

@DilipSarwate Ma compréhension est que la variance maximale se produit pour une variable aléatoire uniforme . La variance de est . Pouvez-vous expliquer comment vous avez obtenu ? X V a r ( X ) = ( b - a ) 2XU(a,b)X (b-a)2Var(X)=(ba)212(ba)24
Anand

En concentrant la masse sur les points d'extrémité ...
Elvis

@DilipSarwate J'ai ajouté quelques commentaires dans la preuve, qui peuvent clarifier un peu pourquoi le pire des cas est la variance maximale.
Elvis

1
@DilipSarwate - Voir le lemme 1 et l'exercice 1 ici: terrytao.wordpress.com/2010/01/03/… . Il semble qu'il existe une dérivation plus simple reposant sur l'inégalité de Jensen et l'expansion de Taylor. Pourtant, les détails de cela ne sont pas clairs pour moi. Peut-être que quelqu'un peut comprendre cela. (dérivation de (9) à (10) et exercice 1)
Leo

Réponses:


17

Je ne suis pas sûr d'avoir bien compris votre question. Je vais essayer de répondre: essayez d'écrire en fonction de : this est naturel car vous voulez une borne dans .u=t(b-a)e u 2

abaetb+bbaeta
u=t(ba)eu28

Aidé par l'expérience, vous saurez qu'il vaut mieux choisir de l'écrire sous la forme . Alors conduit à avec . e g ( u ) = - aeg(u) g ( u )

eg(u)=abaetb+bbaeta
γ=- a
g(u)=log(abaetb+bbaeta)=log(eta(abaet(ba)+bba))=ta+log(γeu+(1γ))=γu+log(γeu+(1γ)),
γ=aba

Est-ce le genre de chose que vous demandiez?

Edit: quelques commentaires sur la preuve

  1. La première astuce mérite d'être examinée attentivement: si est une fonction convexe, et est une variable aléatoire centrée, alors où est la variable discrète définie par Par conséquent, vous obtenez que est la variable centrée avec support dans qui a la plus grande variance: Notez que si nous fixons une largeur de supporta X b E ( ϕ ( X ) ) - aϕaXbX0P(X0=a)
    E(ϕ(X))abaϕ(b)+bbaϕ(a)=E(ϕ(X0)),
    X0X0[a,b]Var(X)=E(X2)E(X20)=ba2-ab2
    P(X0=a)=bbaP(X0=b)=aba.
    X0[a,b](b-a)(b-a)2
    Var(X)=E(X2)E(X02)=ba2ab2ba=ab.
    (ba), c'est moins que comme Dilip le dit dans les commentaires, c'est parce que ; la borne est atteinte pour .(ba)24(ba)2+4ab0a=b
  2. Passons maintenant à notre problème. Pourquoi est-il possible d'obtenir une borne ne dépendant que de ? Intuitivement, il s'agit simplement de redimensionner : si vous avez une borne pour le cas , alors la borne générale peut être obtenu en prenant . Pensez maintenant à l'ensemble des variables centrées avec le support de la largeur 1: il n'y a pas tellement de liberté, donc une borne comme devrait exister. Une autre approche consiste à dire simplement que par le lemme ci-dessus sur , puis plus généralement , qui ne dépend que de etu=t(ba)XE(etX)s(t)ba=1s(t(ba))s(t)

    E(ϕ(X))E(ϕ(tX))E(ϕ(tX0))uγ : si vous fixez et , et que varient, il n'y a qu'un seul degré de liberté, et , , . On obtient Il vous suffit de trouver une borne impliquant uniquement .u=u0=t0(b0a0)γ=γ0=a0b0a0t,a,bt=t0αa=αa0b=αa0

    abaϕ(tb)+bbaϕ(ta)=a0b0a0ϕ(tb0)+b0b0a0ϕ(a0).
    u
  3. Maintenant, nous sommes convaincus que cela peut être fait, cela doit être beaucoup plus facile! Vous ne pensez pas nécessairement à pour commencer. Le fait est que vous devez tout écrire en fonction de et . Notez d'abord que , , et . Puis Maintenant, nous sommes dans le cas particulier ... I pensez que vous pouvez terminer.guγ

    γ=aba1γ=bbaat=γubt=(1γ)u

    E(ϕ(tX))abaϕ(tb)+bbaϕ(ta)=γϕ((1γ)u)+(1γ)ϕ(γu)


    ϕ=exp

J'espère que je l'ai clarifié un peu.


c'est exactement ce que je cherchais. Merci beaucoup.
Anand

1
@Anand Je sais que c'est un conseil difficile à suivre, mais je pense que vous ne devriez pas commencer par vous concentrer sur les détails techniques, mais plutôt essayer de comprendre pourquoi une telle limite peut exister ... alors la preuve devrait apparaître plus facilement. J'ai essayé de vous montrer le pourquoi dans la deuxième partie, a ajouté ce matin (vous devez dormir sur une question comme celle-ci - au moins je dois le faire). Je pense que c'est terrible de voir comment ce genre d'intuitions n'apparaît pas dans la plupart des manuels ... même si vous obtenez la partie technique, tant que vous n'avez pas les idées, tout semble magique. Merci à CrossV de m'avoir donné l'occasion de réfléchir à cela en détail!
Elvis

1
Hou la la! +1 pour l'édition. Merci. Mais ne serait-ce pas bien s'il était possible d'obtenir quelque chose comme
E[etX]eE[t2X2/2]=e(t2/2)E[X2]=e(t2/2)var(X)et2σmax2/2?
Dilip Sarwate

@Elvis Merci pour les conseils et pour avoir pris le temps d'écrire la partie intuitive. J'ai besoin de passer du temps pour comprendre ça!
Anand

1
@Elvis En ce qui concerne l'intuition, je veux clarifier ma compréhension. Pour obtenir des limites plus nettes, il faut des moments plus élevés. Markov utilise le premier moment, Tchebychev le deuxième moment et Hoeffding utilise mgf. Est-ce correct? Si quelqu'un peut développer et clarifier cette partie, ce serait formidable.
Anand
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.