Réponse rapide
La raison en est que, en supposant que les données sont iid et , et en définissant
ˉ XXi∼N(μ,σ2)
lors de la formation des intervalles de confiance, la distribution d'échantillonnage associée à la variance de l'échantillon (S2, rappelez-vous, une variable aléatoire!) Est une distribution du chi carré (S2(N-1)/σ2∼χ2n-1), tout comme la distribution d'échantillonnage associée à la moyenne de l'échantillon est une distribution normale standard ((ˉX-μ)√
X¯S2==∑NXiN∑N(X¯−Xi)2N−1
S2S2(N−1)/σ2∼χ2n−1) quand vous connaissez la variance, et avec un t-étudiant quand vous ne le savez pas (
( ˉ X -μ) √(X¯−μ)n−−√/σ∼Z(0,1)(X¯−μ)n−−√/S∼Tn−1 ).
Longue réponse
Tout d'abord, nous allons prouver que suit une distribution khi carré avec N - 1S2(N−1)/σ2N−1 degrés de liberté. Après cela, nous verrons comment cette preuve est utile lors de la dérivation des intervalles de confiance pour la variance, et comment la distribution du chi carré apparaît (et pourquoi elle est si utile!). Commençons.
La preuve
Pour cela, vous devez peut-être vous habituer à la distribution du chi carré dans cet article Wikipedia . Cette distribution n'a qu'un seul paramètre: les degrés de liberté, , et se trouve avoir une fonction de génération de moment (MGF) donnée par:
m χ 2 ν ( t ) = ( 1 - 2 t ) - 1ν
Si nous pouvons montrer que la distribution de S 2 (N-1) / σ 2 a une fonction de génération de moment comme celle-ci, mais avecν
mχ2ν(t)=(1−2t)−ν/2.
S2(N−1)/σ2, nous avons alors montré que
S 2 ( N - 1 ) / σ 2 suit une distribution khi carré avec
N - 1 degrés de liberté. Pour le montrer, notez deux faits:
ν=N−1S2(N−1)/σ2N−1
Si nous définissons,
oùZ
Y=∑(Xi−X¯)2σ2=∑Z2i,
, c'est-à-dire les variables aléatoires normales standard, la fonction de génération de moment de Y est donnée par
m Y ( t )Zi∼N(0,1)Y
La MGF deZ2est donnée par
m Z 2 ( t )mY(t)===E[etY]E[etZ21]×E[etZ22]×...E[etZ2N]mZ2i(t)×mZ22(t)×...mZ2N(t).
Z2mZ2(t)==∫∞−∞f(z)exp(tz2)dz(1−2t)−1/2,
où j'ai utilisé le PDF de la norme normale, et, par conséquent,
mY(t)=(1-2tf(z)=e−z2/2/2π−−√
ce quiimplique que Y suit une distribution chi carré avec N degrés de liberté.mY(t)=(1−2t)−N/2,
YN
Si et Y 2 sont indépendants et se répartissent chacun sous la forme d'une distribution chi carré mais avec ν 1 et ν 2 degrés de liberté, alors W = YY1Y2ν1ν2W=Y1+Y2ν1+ ν2W
N- 1
( N- 1 ) S2= - n ( X¯−μ)+∑(Xi−μ)2,
σ2(N−1)S2σ2+(X¯-μ)2σ2/ N= ∑ (Xi- μ)2σ2.
NS2(N- 1 ) / σ2N- 1
Calcul de l'intervalle de confiance pour la variance.
L1L2
P ( L1≤ σ2≤ L2) =1-α.
S2( N- 1 )L1S2( N- 1)≤σ2S2( N- 1 )≤L2S2(N- 1 ).
S2(N- 1 )/ σ2N- 1L1S2(N−1)≤σ2S2(N−1)σ2S2(N−1)≤L2S2(N−1)⇒⇒S2(N−1)σ2≤S2(N−1)L1,S2(N−1)L2≤S2(N−1)σ2,
P(S2(N−1)L2≤S2(N−1)σ2≤S2(N−1)L1)=1−α.
S2(N−1)/σ2∼χ2(N−1)∫N−1S2(N−1)L2pχ2(x)dx∫S2(N−1)L1N−1pχ2(x)dx==(1−α)/2 ,(1−α)/2
(we integrate up to
N−1 because the expected value of a chi-squared random variable with
N−1 degrees of freedom is
N−1) or, equivalently,
∫S2(N−1)L20pχ2(x)dx=α/2,∫∞S2(N−1)L1pχ2(x)dx=α/2.
Calling
χ2α/2=S2(N−1)L2 and
χ21−α/2=S2(N−1)L1, where the values
χ2α/2 and
χ21−α/2 can be found in chi-square tables (in computers mainly!) and solving for
L1 and
L2,
L1L2==S2(N−1)χ21−α/2,S2(N−1)χ2α/2.
Hence, your confidence interval for the variance is
C.I.=(S2(N−1)χ21−α/2,S2(N−1)χ2α/2).