Apprendre une variance est difficile.
Il faut (peut-être de façon surprenante) un grand nombre d'échantillons pour bien estimer une variance dans de nombreux cas. Ci-dessous, je vais montrer le développement du cas "canonique" d'un échantillon normal iid.
Supposons que , i = 1 , … , n sont des variables aléatoires indépendantes N ( μ , σ 2 ) . Nous recherchons un intervalle de confiance de 100 ( 1 - α ) % pour la variance de telle sorte que la largeur de l'intervalle soit ρ s 2 , c'est-à-dire que la largeur soit 100 ρ %Yii=1,…,nN(μ,σ2)100(1−α)%ρs2100ρ% de l'estimation ponctuelle. Par exemple, si , alors la largeur de l'IC est la moitié de la valeur de l'estimation ponctuelle, par exemple siρ=1/2 , alors l'IC serait quelque chose comme ( 8 ,s2=10 , ayant une largeur de 5. Notez également l'asymétrie autour de l'estimation ponctuelle. ( s 2 est l'estimateur sans biais de la variance.)(8,13)s2
"L'intervalle de confiance" (plutôt "a") pour est
( n - 1 ) s 2s2
(n−1)s2χ2(1−α/2)(n−1)≤σ2≤(n−1)s2χ2(α/2)(n−1),
où
est lequantile
βde la distribution du chi carré avec
n-1degrés de liberté. (Cela vient du fait que
(n-1)s2χ2β(n−1)βn−1 est une quantité pivot dans un contexte gaussien.)
(n−1)s2/σ2
Nous voulons minimiser la largeur pour que
il nous reste donc à résoudre pour n tel que
( n - 1 ) ( 1
L(n)=(n−1)s2χ2(α/2)(n−1)−(n−1)s2χ2(1−α/2)(n−1)<ρs2,
n(n−1)⎛⎝⎜1χ2(α/2)(n−1)−1χ2(1−α/2)(n−1)⎞⎠⎟<ρ.
Dans le cas d'un intervalle de confiance à 99%, on obtient pour ρ = 1 et n = 5321 pour ρ = 0,1 . Ce dernier cas donne un intervalle qui est ( encore! ) 10% aussi grand que l'estimation ponctuelle de la variance.n=65ρ=1n=5321ρ=0.1
Si le niveau de confiance que vous avez choisi est inférieur à 99%, le même intervalle de largeur sera obtenu pour une valeur inférieure de . Mais, n peut toujours être plus grand que vous ne l'auriez pensé.nn
Un tracé de la taille de l'échantillon fonction de la largeur proportionnelle ρ montre quelque chose qui semble asymptotiquement linéaire sur une échelle log-log; en d'autres termes, une relation de type loi de puissance. Nous pouvons estimer (grossièrement) la puissance de cette relation puissance-loi commenρ
α^≈log0.1−log1log5321−log65=−log10log523165≈−0.525,
ce qui est malheureusement décidément lent!
C'est en quelque sorte le cas «canonique» pour vous donner une idée de la façon de procéder. Sur la base de vos graphiques, vos données ne semblent pas particulièrement normales; en particulier, il y a ce qui semble être une asymétrie notable.
Mais cela devrait vous donner une idée approximative de ce à quoi vous attendre. Notez que pour répondre à votre deuxième question ci-dessus, il est nécessaire de fixer d'abord un certain niveau de confiance, que j'ai défini à 99% dans le développement ci-dessus à des fins de démonstration.