Une normale divisée par vous donne une distribution en t - preuve


10

soit et .W χ 2 ( s )ZN(0,1)Wχ2(s)

Si et sont distribués indépendamment, la variable suit une distribution avec des degrés de liberté .W Y = ZZW tsY=ZW/sts

Je cherche une preuve de ce fait, une référence est assez bonne si vous ne voulez pas écrire l'argument complet.


1
Ceci est démontré formellement sur stats.stackexchange.com/questions/52906 : le rapport, lorsqu'il est écrit comme une intégrale, est considéré comme un mélange de gaussiens, et cette démonstration montre que le mélange est à la distribution.
whuber

Dans certains manuels, il s'agit d'une définition d'une distribution en T. Vous n'avez pas besoin de le prouver. Comment dériver un pdf avec une telle définition est cependant une question valable.
mpiktas

Réponses:


12

Soit une variable aléatoire khi-deux à degrés de liberté. Alors la racine carrée de , est distribuée comme une distribution chi avec degrés de liberté, qui a la densité n O YnY n f Y ( y ) = 2 1 - nYY^n

(1)fY^(y^)=21n2Γ(n2)y^n1exp{y^22}

Définir . Alors , et par la formule de changement de variable nous avons cela YX1nY^Y^X=n

fX(x)=fY^(nx)|Y^X|=21n2Γ(n2)(nx)n1exp{(nx)22}n

(2)=21n2Γ(n2)nn2xn1exp{n2x2}

Soit une variable aléatoire normale standard, indépendante des précédentes, et définit la variable aléatoireZ

T=ZYn=ZX
.

Par la formule standard pour la fonction de densité du rapport de deux variables aléatoires indépendantes,

fT(t)=|x|fZ(xt)fX(x)dx

Mais pour l'intervalle parce que est un rv non négatif Nous pouvons donc éliminer la valeur absolue et réduire l'intégrale à[ - , 0 ] XfX(x)=0[,0]X

fT(t)=0xfZ(xt)fX(x)dx

=0x12πexp{(xt)22}21n2Γ(n2)nn2xn1exp{n2x2}dx

(3)=12π21n2Γ(n2)nn20xnexp{12(n+t2)x2}dx

L'intégrande dans semble promettre d'être éventuellement transformé en une fonction de densité gamma. Les limites d'intégration sont correctes, nous devons donc manipuler l'intégrande pour qu'elle devienne une fonction de densité gamma sans changer les limites. Définissez la variable(3)

mx2dm=2xdxdx=dm2x,x=m12
Faire la substitution dans l'intégrande que nous avons

(4)I3=0xnexp{12(n+t2)m}dm2x=120mn12exp{12(n+t2)m}dm

La densité gamma peut être écrite

Gamma(m;k,θ)=mk1exp{mθ}θkΓ(k)

Coefficients correspondants, nous devons avoir

k1=n12k=n+12,1θ=12(n+t2)θ=2(n+t2)

Pour ces valeurs de et les termes dans l'intégrande impliquant la variable sont le noyau d'une densité gamma. Donc, si nous divisons l'intégrande par et que nous multiplions en dehors de l'intégrale de la même grandeur, l'intégrale sera la distr gamma. fonctionner et sera égal à l'unité. Par conséquent, nous sommes arrivés àkθ(θ)kΓ(k)

I3=12(θ)kΓ(k)=12(2n+t2)n+12Γ(n+12)=2n12nn+12Γ(n+12)(1+t2n)12(n+1)

Insérer ce qui précède dans l'égaliseur. nous obtenons(3)

fT(t)=12π21n2Γ(n2)nn22n12nn+12Γ(n+12)(1+t2n)12(n+1)

=Γ[(n+1)/2]nπΓ(n/2)(1+t2n)12(n+1)

... qui est ce qu'on appelle la (fonction de densité de) la distribution t de Student, avec degrés de liberté.n


23

Bien que ES Pearson n'aimait pas cela, l'argument original de Fisher était géométrique, simple, convaincant et rigoureux. Il s'appuie sur un petit nombre de faits intuitifs et faciles à établir. Ils sont facilement visualisables lorsque ou , où la géométrie peut être visualisée en deux ou trois dimensions. En effet, cela revient à utiliser des coordonnées cylindriques dans pour analyser iid variables normales.s=1s=2Rs×Rs+1

  1. s+1 indépendantes et identiquement distribuées Les variables normales sont sphériquement symétriques. Cela signifie que la projection radiale du point sur la sphère unitaire a une distribution uniforme sur .X1,,Xs+1(X1,,Xs+1)SsRs+1Ss

  2. Une est celle de la somme des carrés de variables normales normales indépendantes.χ2(s)s

  3. Ainsi, en définissant et , le rapport est la tangente de la latitude du point dans .Z=Xs+1W=X12++Xs2Z/Wθ(X1,,Xs,Xs+1)Rs+1

  4. tanθ est inchangé par projection radiale sur .Ss

  5. L'ensemble déterminé par tous les points de latitude sur est une sphère dimensionnelle de rayon . Sa mesure dimensionnelle est donc proportionnelle àθSss1cosθs1

    coss1θ=(1+tan2θ)(s1)/2.

  6. L'élément différentiel est .d(tanθ)=cos2θdθ=(1+tan2θ)dθ

  7. L'écriture de donne , d'où et Ensemble, ces équations impliquentL'intégration du facteur dans une constante de normalisation montre que la densité de est proportionnelle àt=Z/W/s=stanθtanθ=t/s

    1+t2/s=1+tan2θ
    dt=sdtanθ=s(1+tan2θ)dθ.
    dθ=1s(1+t2/s)1dt.
    1/sC(s)t

    (1+tan2θ)(s1)/2dθ=(1+t2/s)(s1)/2 (1+t2/s)1dt=(1+t2/s)(s+1)/2dt.

C'est la densité de Student t.

Figure

La figure représente l'hémisphère supérieur (avec ) de dans . Les axes croisés s'étendent sur l' hyperplanLes points noirs font partie d'un échantillon aléatoire d'une distribution normale standard variable: ce sont les valeurs se projetant sur une latitude donnée constante , représentée par la bande jaune. La densité de ces points est proportionnelle au volume dimensionnel de cette bande, qui est elle-même un de rayon . Le cône sur cette bande est dessiné pour se terminer à une hauteur de . Jusqu'à un facteur deZ0SsRs+1Ws+1θs1Ss1θtanθs, la distribution de Student t avec degrés de liberté est la distribution de cette hauteur pondérée par la mesure de la bande jaune lors de la normalisation de l'aire de la sphère unitaire à l'unité.sSs

Par ailleurs, la constante de normalisation doit être (comme mentionné précédemment) fois les volumes relatifs des sphères ,1/s

C(s)=1s|Ss1||Ss|=1ssπs/2Γ(s+12+1)(s+1)π(s+1)/2Γ(s2+1)=1ssπs/2(s+1)/2Γ(s+12)(s+1)π(s+1)/2(s/2)Γ(s2)=Γ(s+12)sπΓ(s2).

L'expression finale, bien que conventionnelle, masque légèrement l'expression initiale magnifiquement simple, qui révèle clairement la signification de .C(s)


Fisher a expliqué cette dérivation à WS Gosset (l'original "étudiant") dans une lettre. Gosset a tenté de le publier, attribuant à Fisher tout son crédit, mais Pearson a rejeté le document. La méthode de Fisher, appliquée au problème sensiblement similaire mais plus difficile de trouver la distribution d'un coefficient de corrélation d'échantillon, a finalement été publiée.

Références

RA Fisher, Distribution de fréquence des valeurs du coefficient de corrélation dans les échantillons d'une population indéfiniment grande. Biometrika Vol. 10, n ° 4 (mai 1915), p. 507-521. Disponible sur le Web à https://stat.duke.edu/courses/Spring05/sta215/lec/Fish1915.pdf (et à de nombreux autres endroits via la recherche, une fois ce lien disparu).

Joan Fisher Box, Gosset, Fisher et la distribution t. Le statisticien américain , vol. 35, n ° 2 (mai 1981), p. 61-66. Disponible sur le Web à http://social.rollins.edu/wpsites/bio342spr13/files/2015/03/Studentttest.pdf .

EL Lehmann, Fisher, Neyman et la création de statistiques classiques. Springer (2011), chapitre 2.


Ceci est une preuve fantastique! J'espère sincèrement que vous trouverez ce message, même si cela fait plusieurs années maintenant. Dans la sixième étape de cette preuve, je pense qu'il y a une erreur. Cos ^ -2 (theta) = (1 + tan ^ 2 (theta)), pas son inverse. Prier qu'il existe une solution facile?
Math Enthusiast

@Math Merci pour vos remarques. Je ne trouve aucune erreur à l'étape 6. Peut-être que vous essayez de lire " " (ce qui signifie la puissance de ) comme si cela signifiait " "? cos2(θ)2cos(θ)(ArcCos(θ))2
whuber

1
J'ai utilisé l'identité simple pour déduire que à la ligne 5 Mais par ce même raisonnement à la ligne 6, . Cela contredit l'affirmation selon laquelle l'élément différentiel est égal àsec2θ=tan2θ+1cosθ=(tan2θ+1)1/2cos2θ=sec2θ=(tan2θ+1)(tan2θ+1)1
Math Enthusiast

@Math Merci - vous avez raison, bien sûr. J'ai édité les points (6) et (7) pour corriger l'algèbre.
whuber

1
Ouf, quel soulagement! Bonnes vacances à vous
Math Enthusiast

1

J'essaierais de changer de variables. Définissez et par exemple. Donc , . Alors. Où est la matrice jacobienne de la fonction multivariable de et de et . Ensuite, vous pouvez intégrer out à partir de la densité du joint. , , , et X=ZZ=XW=sX2Y=ZWsX=ZZ=XW=sX2Y2fX,Y(x,y)=fZ,W(x,sx2y2)|det(J)|JZWXYxZX=1ZY=0WX=2sXY2WY=2sX2Y3 .

J=(102sX2Y3)

Donc . Je viens de prendre un coup d' oeil à des éléments de la théorie de la distribution par Thomas A. Severini et là, ils prennent . L'intégration des choses devient plus facile en utilisant les propriétés d'une distribution de Gaama. Si j'utilise , j'aurais probablement besoin de compléter des carrés.|det(J)|=2sx2y3X=WX=Z

Mais je ne veux pas faire le calcul.


1
Je ne vous ai pas downvote, en fait je vous ai juste upvote. Mais je pense que peut-être le downvote est arrivé avant votre montage.
Monolite

Désolé, je serai prudent à partir de maintenant.
2015
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.