Dérivation de la transformation de normalisation pour les GLM


15

Comment est la transformation de normalisation pour la famille exponentielle dérivé? A ( ) = d uV une / 3 ( μ )A()=duV1/3(μ)

Plus précisément : j'ai essayé de suivre le croquis d'extension de Taylor à la page 3, diapositive 1 ici, mais j'ai plusieurs questions. Avec d'une famille exponentielle, la transformation et dénotant le cumulant , les diapositives soutiennent que: \ kappa _3 (h (\ bar {X})) \ approx h '(\ mu) ^ 3 \ frac {\ kappa _3 (\ bar {X})} {N ^ 2} + 3h '(\ mu) ^ 2h' '(\ mu) \ frac {\ sigma ^ 4} {N} + O (N ^ {- 3}), et il reste à trouver simplement h (X) tel que ce qui précède est évalué à 0.Xh(X)κiithκ3(h(ˉX))h(μ)3κ3(ˉX)N2+3h(μ)2h(μ)σ4N+O(N3),

κ3(h(X¯))h(μ)3κ3(X¯)N2+3h(μ)2h′′(μ)σ4N+O(N3),
h(X)h(X)
  1. Ma première question concerne l'arithmétique: mon expansion de Taylor a des coefficients différents, et je ne peux pas justifier qu'ils aient abandonné de nombreux termes.

    Since h(x)h(μ)+h(μ)(xμ)+h(x)2(xμ)2, we have:h(ˉX)h(u)h(u))(ˉXμ)+h(x)2(ˉXμ)2E(h(ˉX)h(u))3h(μ)3E(ˉXμ)3+32h(μ)2h(μ)E(ˉXμ)4+34h(μ)h(μ)2E(ˉXμ)5+18h(μ)3E(ˉXμ)6.

    Since h(x)h(X¯)h(u)E(h(X¯)h(u))3h(μ)+h(μ)(xμ)+h′′(x)2(xμ)2, we have:h(u))(X¯μ)+h′′(x)2(X¯μ)2h(μ)3E(X¯μ)3+32h(μ)2h′′(μ)E(X¯μ)4+34h(μ)h′′(μ)2E(X¯μ)5+18h′′(μ)3E(X¯μ)6.

    Je peux arriver à quelque chose de similaire en remplaçant les moments centraux par leurs équivalents cumulatifs, mais cela ne correspond toujours pas.

  2. Deuxième question: pourquoi l'analyse commence-t-elle par ˉXX¯ au lieu de XX , la quantité dont nous nous soucions réellement?


vous semblez avoir plusieurs fois où vous direuuμμ
Glen_b -Reinstate Monica

Réponses:


2

Les diapositives auxquelles vous liez sont quelque peu déroutantes, omettant des étapes et faisant quelques fautes de frappe, mais elles sont finalement correctes. Cela aidera à répondre à la question 2 d'abord, puis à 1, et enfin à dériver la transformation de symétrisationA(u)=u1[V(θ)]1/3dθA(u)=u1[V(θ)]1/3dθ .

Question 2. Nous analysons car c'est la moyenne d'un échantillon de taille de iid variables aléatoires . C'est une quantité importante car l'échantillonnage de la même distribution et la prise de la moyenne se produisent tout le temps en science. Nous voulons savoir à quel point est proche de la vraie moyenne . Le théorème de la limite centrale dit qu'il convergera vers comme mais nous aimerions connaître la variance et l'asymétrie deˉXX¯NNX1,...,XNX1,...,XNˉXX¯μμμμNNˉXX¯ .

Question 1. Votre approximation de la série Taylor n'est pas incorrecte, mais nous devons faire attention à garder une trace de vs et des puissances de pour arriver à la même conclusion que les diapositives. Nous allons commencer avec les définitions de et les moments centraux de et dériver la formule pour :ˉXX¯XiXiNNˉXX¯XiXiκ3(h(ˉX))κ3(h(X¯))

ˉX=1NNi=1XiX¯=1NNi=1Xi

E[Xi]=μE[Xi]=μ

V(Xi)=E[(Xiμ)2]=σ2V(Xi)=E[(Xiμ)2]=σ2

κ3(Xi)=E[(Xiμ)3]κ3(Xi)=E[(Xiμ)3]

Maintenant, les moments centraux de :ˉXX¯

E[ˉX]=1NNi=1E[Xi]=1N(Nμ)=μE[X¯]=1NNi=1E[Xi]=1N(Nμ)=μ

V(ˉX)=E[(ˉXμ)2]=E[((1NNi=1Xi)μ)2]=E[(1NNi=1(Xiμ))2]=1N2(NE[(Xiμ)2]+N(N1)E[Xiμ]E[Xjμ])=1Nσ2V(X¯)=E[(X¯μ)2]=E[((1Ni=1NXi)μ)2]=E[(1Ni=1N(Xiμ))2]=1N2(NE[(Xiμ)2]+N(N1)E[Xiμ]E[Xjμ])=1Nσ2

La dernière étape suit puisque , et . Cela n'a peut-être pas été la dérivation la plus simple de , mais c'est le même processus que nous devons faire pour trouver et , où nous décomposons un produit d'une sommation et comptons le nombre de termes avec des puissances de variables différentes. Dans le cas ci-dessus, il y avait termes qui étaient de la forme et termes de la forme .E[Xiμ]=0E[Xiμ]=0E[(Xiμ)2]=σ2E[(Xiμ)2]=σ2V(ˉX)V(X¯)κ3(ˉX)κ3(X¯)κ3(h(ˉX))κ3(h(X¯))NN(Xiμ)2(Xiμ)2N(N1)N(N1)(Xiμ)(Xjμ)(Xiμ)(Xjμ)

κ3(ˉX)=E[(ˉXμ)3)]=E[((1NNi=1Xi)μ)3]=E[(1NNi=1(Xiμ))3]=1N3(NE[(Xiμ)3]+3N(N1)E[(Xiμ)E[(Xjμ)2]+N(N1)(N2)E[(Xiμ)]E[(Xjμ)]E[(Xkμ)]=1N2E[(Xiμ)3]=κ3(Xi)N2κ3(X¯)=E[(X¯μ)3)]=E[((1Ni=1NXi)μ)3]=E[(1Ni=1N(Xiμ))3]=1N3(NE[(Xiμ)3]+3N(N1)E[(Xiμ)E[(Xjμ)2]+N(N1)(N2)E[(Xiμ)]E[(Xjμ)]E[(Xkμ)]=1N2E[(Xiμ)3]=κ3(Xi)N2

Ensuite, nous développeronsh(ˉX)h(X¯) dans une série Taylor comme vous l'avez:

h(ˉX)=h(μ)+h(μ)(ˉXμ)+12h(μ)(ˉXμ)2+13h(μ)(ˉXμ)3+...h(X¯)=h(μ)+h(μ)(X¯μ)+12h′′(μ)(X¯μ)2+13h′′′(μ)(X¯μ)3+...

E[h(ˉX)]=h(μ)+h(μ)E[ˉXμ]+12h(μ)E[(ˉXμ)2]+13h(μ)E[(ˉXμ)3]+...=h(μ)+12h(μ)σ2N+13h(μ)κ3(Xi)N2+...E[h(X¯)]=h(μ)+h(μ)E[X¯μ]+12h′′(μ)E[(X¯μ)2]+13h′′′(μ)E[(X¯μ)3]+...=h(μ)+12h′′(μ)σ2N+13h′′′(μ)κ3(Xi)N2+...

Avec un peu plus d'efforts, vous pouvez prouver que les autres termes sont . Enfin, puisque , (qui n'est pas la même chose que ), nous faisons à nouveau un calcul similaire:O(N3)O(N3)κ3(h(ˉX))=E[(h(ˉX)E[h(ˉX)])3]κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]E[(h(ˉX)h(μ))3]E[(h(X¯)h(μ))3]

κ3(h(ˉX))=E[(h(ˉX)E[h(ˉX)])3]=E[(h(μ)+h(μ)(ˉXμ)+12h(μ)(ˉXμ)2+O((ˉXμ)3)h(μ)12h(μ)σ2NO(N2))3]κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]=E[(h(μ)+h(μ)(X¯μ)+12h′′(μ)(X¯μ)2+O((X¯μ)3)h(μ)12h′′(μ)σ2NO(N2))3]

Nous ne sommes intéressés que par les termes résultant de l'ordre , et avec un travail supplémentaire, vous pourriez montrer que vous n'avez pas besoin des termes " "ou" "avant de prendre le troisième pouvoir, car ils ne résulteront qu'en termes d'ordreO(N2)O(N2)O((ˉXμ)3)O((X¯μ)3)O(N2)O(N2)O(N3)O(N3) . Donc, en simplifiant, nous obtenons

κ3(h(ˉX))=E[(h(μ)(ˉXμ)+12h(μ)(ˉXμ)212h(μ)σ2N))3]=E[h(μ)3(ˉXμ)3+18h(μ)3(ˉXμ)618h(μ)3σ6N3+32h(μ)2h(μ)(ˉXμ)4+34h(μ)h(μ)(ˉXμ)532h(μ)2h(μ)(ˉXμ)2σ2N+O(N3)]κ3(h(X¯))=E[(h(μ)(X¯μ)+12h′′(μ)(X¯μ)212h′′(μ)σ2N))3]=E[h(μ)3(X¯μ)3+18h′′(μ)3(X¯μ)618h′′(μ)3σ6N3+32h(μ)2h′′(μ)(X¯μ)4+34h(μ)h′′(μ)(X¯μ)532h(μ)2h′′(μ)(X¯μ)2σ2N+O(N3)]

J'ai laissé des termes qui étaient évidemment dans ce produit. Vous devrez vous convaincre que les termes et sontO(N3)O(N3)E[(ˉXμ)5]E[(X¯μ)5]E[(ˉXμ)6]E[(X¯μ)6]O(N3)O(N3) également. cependant,

E[(ˉXμ)4]=E[1N4(Ni=1(ˉXμ))4]=1N4(NE[(Xiμ)4]+3N(N1)E[(Xiμ)2]E[(Xjμ)2]+0)=3N2σ4+O(N3)E[(X¯μ)4]=E[1N4(i=1N(X¯μ))4]=1N4(NE[(Xiμ)4]+3N(N1)E[(Xiμ)2]E[(Xjμ)2]+0)=3N2σ4+O(N3)

Puis distribuer l'espérance sur notre équation pourκ3(h(ˉX))κ3(h(X¯)) , nous avons

κ3(h(ˉX))=h(μ)3E[(ˉXμ)3]+32h(μ)2h(μ)E[(ˉXμ)4]32h(μ)2h(μ)E[(ˉXμ)2]σ2N+O(N3)=h(μ)3κ3(Xi)N2+92h(μ)2h(μ)σ4N232h(μ)2h(μ)σ4N2+O(N3)=h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2+O(N3)κ3(h(X¯))=h(μ)3E[(X¯μ)3]+32h(μ)2h′′(μ)E[(X¯μ)4]32h(μ)2h′′(μ)E[(X¯μ)2]σ2N+O(N3)=h(μ)3κ3(Xi)N2+92h(μ)2h′′(μ)σ4N232h(μ)2h′′(μ)σ4N2+O(N3)=h(μ)3κ3(Xi)N2+3h(μ)2h′′(μ)σ4N2+O(N3)

Ceci conclut la dérivation de . Maintenant, nous dériverons enfin la transformée de symétrisation .κ3(h(ˉX))κ3(h(X¯))A(u)=u1[V(θ)]1/3dθA(u)=u1[V(θ)]1/3dθ

Pour cette transformation, il est important que soit issu d'une distribution de famille exponentielle, et en particulier d'une famille exponentielle naturelle (ou il a été transformé en cette distribution), de la formeXiXifXi(x;θ)=h(x)exp(θxb(θ))fXi(x;θ)=h(x)exp(θxb(θ))

Dans ce cas, les cumulants de la distribution sont donnés par . Donc , et . Nous pouvons écrire le paramètre en fonction de prenant simplement l'inverse de , en écrivant . alorsκk=b(k)(θ)κk=b(k)(θ)μ=b(θ)μ=b(θ)σ2=V(θ)=b(θ)σ2=V(θ)=b′′(θ)κ3=b(θ)κ3=b′′′(θ)θθμμbbθ(μ)=(b)1(μ)θ(μ)=(b)1(μ)

θ(μ)=1b((b)1(μ))=1b(θ))=1σ2θ(μ)=1b′′((b)1(μ))=1b′′(θ))=1σ2

Ensuite, nous pouvons écrire la variance en fonction de , et appeler cette fonctionμμˉVV¯ :

ˉV(μ)=V(θ(μ))=b(θ(μ))V¯(μ)=V(θ(μ))=b′′(θ(μ))

alors

ddμˉV(μ)=V(θ(μ))θ(μ)=b(θ)1σ2=κ3σ2ddμV¯(μ)=V(θ(μ))θ(μ)=b′′′(θ)1σ2=κ3σ2

Donc, en fonction de ,μμκ3(μ)=ˉV(μ)ˉV(μ)κ3(μ)=V¯(μ)V¯(μ) .

Maintenant, pour la transformation de symétrisation, nous voulons réduire l'asymétrie de en faisant pour que soit . Ainsi, nous voulonsh(ˉX)h(X¯)h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2=0h(μ)3κ3(Xi)N2+3h(μ)2h′′(μ)σ4N2=0h(ˉX)h(X¯)O(N3)

h(μ)3κ3(Xi)+3h(μ)2h(μ)σ4=0

En substituant nos expressions à et tant que fonctions de , nous avons:σ2κ3μ

h(μ)3ˉV(μ)ˉV(μ)+3h(μ)2h(μ)ˉV(μ)2=0

Donc , conduisant à .h(μ)3ˉV(μ)+3h(μ)2h(μ)ˉV(μ)=0ddμ(h(μ)3ˉV(μ))=0

Une solution à cette équation différentielle est:

h(μ)3ˉV(μ)=1 ,

h(μ)=1[ˉV(μ)]1/3

Donc, , pour toute constante, . Cela nous donne la transformation symétrisante , où est la variance comme fonction de la moyenne dans une famille exponentielle naturelle.h(μ)=μc1[ˉV(θ)]1/3dθcA(u)=u1[V(θ)]1/3dθV


1

1.Pourquoi ne puis-je pas obtenir le même résultat en effectuant une approximation en termes de moments non centraux , puis calculer les moments centraux utilisant les moments non centraux approximatifs?EˉXkE(ˉXEˉX)k

Parce que vous modifiez la dérivation arbitrairement et supprimez le terme résiduel, ce qui est important. Si vous n'êtes pas familier avec la grande notation O et les résultats pertinents, une bonne référence est [Casella & Lehmann].

h(ˉX)h(u)h(u)(ˉXμ)+h(x)2(ˉXμ)2+O[(ˉXμ)3]

E[h(ˉX)h(u)]h(u)E(ˉXμ)+h(x)2E(ˉXμ)2+(?)

Mais même si vous ne laissez pas tomber le résidu en faisant valoir que vous faites toujours (ce qui n'est pas légal ...), l'étape suivante: dit queN\E(h(ˉX)h(u))3h(μ)3\E(ˉXμ)3+32h(μ)2h(μ)\E(ˉXμ)4+34h(μ)h(μ)2\E(ˉXμ)5+18h(μ)3\E(ˉXμ)6.(1)

[h(x)h(x0)]3dx=[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3dx=(1)

si ce n'est toujours pas clair, nous pouvons voir l'algèbre de l'expansion de l'intégrande va comme

[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3(2)

Soit , ,A=h(x0)(xx0)B=12h(x0)(xx0)2C=O((xx0)3) (2)=[A+B+C]3 [A3+3A2B+3AB2+B3]=[A+B]3=(1)

Votre erreur est d'omettre le résidu avant l'expansion, qui est une erreur "classique" dans la notation Big O et est devenue plus tard une critique de l'utilisation de la notation Big O.

2.Pourquoi l'analyse commence-t-elle par au lieu de , la quantité qui nous intéresse vraiment?ˉXX

Parce que nous voulons baser notre analyse sur les statistiques suffisantes du modèle exponentiel que nous introduisons. Si vous avez un échantillon de taille 1, il n'y a aucune différence si vous analysez avec OU .ˉX=1nni=1XiX1

Ceci est une bonne leçon de notation O bien qu'elle ne soit pas pertinente pour GLM ...

Référence [Casella & Lehmann] Lehmann, Erich Leo et George Casella. Théorie de l'estimation ponctuelle. Springer Science & Business Media, 2006.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.