Densité de la distribution normale à mesure que les dimensions augmentent


15

La question que je veux poser est la suivante: comment la proportion d'échantillons à moins de 1 écart-type de la moyenne d'une distribution normale varie-t-elle à mesure que le nombre de variables augmente?

(Presque) tout le monde sait que dans une distribution normale unidimensionnelle, 68% des échantillons se trouvent dans un écart-type de la moyenne. Et en 2, 3, 4, ... dimensions? Je sais que ça devient moins ... mais de combien (précisément)? Il serait pratique d'avoir un tableau montrant les chiffres pour 1, 2, 3 ... 10 dimensions, ainsi que 1, 2, 3 ... 10 SD. Quelqu'un peut-il pointer vers une telle table?

Un peu plus de contexte - j'ai un capteur qui fournit des données sur jusqu'à 128 canaux. Chaque canal est soumis à un bruit électrique (indépendant). Lorsque je sens un objet d'étalonnage, je peux faire la moyenne d'un nombre suffisant de mesures et obtenir une valeur moyenne sur les 128 canaux, ainsi que 128 écarts-types individuels.

MAIS ... en ce qui concerne les lectures instantanées individuelles, les données ne répondent pas autant à 128 lectures individuelles qu'à une seule lecture d'une quantité vectorielle (jusqu'à) 128 dimensonales. C'est certainement la meilleure façon de traiter les quelques lectures critiques que nous prenons (généralement 4-6 sur 128).

Je veux avoir une idée de ce qui est une variation "normale" et de ce qui est "aberrant" dans cet espace vectoriel. Je suis sûr d'avoir vu un tableau comme celui que j'ai décrit qui s'appliquerait à ce genre de situation - quelqu'un peut-il en indiquer un?


S'il vous plaît - puis-je avoir des réponses empiriques seulement - je ne comprends pas la plupart des notations mathématiques.
omatai

Réponses:


19

Prenons : chaque X i est N normal ( 0 , 1 ) et les X i sont indépendants - je suppose que c'est ce que vous voulez dire avec des dimensions plus élevées.X=(X1,,Xd)N(0,I)XiN(0,1)Xi

Vous diriez que est à 1 sd près de la moyenne lorsque | | X | | < 1 (la distance entre X et sa valeur moyenne est inférieure à 1). Maintenant | | X | | 2 = X 2 1 + + X 2 dχ 2 ( d ) donc cela se produit avec la probabilité P ( ξ < 1 )ξ χ 2 ( d )X||X||<1||X||2=X12++Xd2χ2(d)P(ξ<1)ξχ2(d). Vous pouvez le trouver dans de bonnes tables carrées chi ...

Voici quelques valeurs:

dP(ξ<1)10.6820.3930.2040.09050.03760.01470.005280.001890.00056100.00017

Et pour 2 sd:

dP(ξ<4)10.9520.8630.7440.5950.4560.3270.2280.1490.089100.053

Vous pouvez obtenir ces valeurs dans R avec commads comme pchisq(1,df=1:10), pchisq(4,df=1:10), etc.

Post Scriptum Comme l'a souligné le cardinal dans les commentaires, on peut estimer le comportement asymptotique de ces probabilités. Le CDF d'une variable est F dχ2(d)γ(s,y)=y0ts-1e-tdt

Fd(x)=P(d/2,x/2)=γ(d/2,x/2)Γ(d/2)
γ(s,y)=0yts1etdt est le incomplet -fonctionγ , et classiquement .Γ(s)=0ts1etdt

Lorsque est un entier, une intégration répétée par parties montre que P ( s , y ) = e - y k = s y ks qui est la queue du CDF de la distribution de Poisson.

P(s,y)=eyk=sykk!,

Or cette somme est dominée par son premier terme (merci beaucoup au cardinal): pour les grandss. On peut l'appliquer lorsquedest pair: P(ξ<x)=P(d/2,x/2)1P(s,y)yss!eysd pour les grandsdpairs, l'avant-dernière équivalence en utilisant la formule de Stirling. De cette formule, nous voyons que la décroissance asymptotique est très rapide lorsquedaugmente.

P(ξ<x)=P(d/2,x/2)1(d/2)!(x2)d/2ex/21πde12(dx)(xd)d21πe12xd12d,
dd

Bienvenue sur notre site, Elvis! Bonne réponse. (+1)
whuber

1
ξd

Merci pour vos commentaires. Je ne pensais pas que cette réponse recevrait beaucoup d'attention! Il est vrai que c'est une belle forme de malédiction de dimensionnalité ... @cardinal concernant (3) Je ne connais aucun équivalent asymptotique de la fonction gamma incomplète lorsque les premiers paramètres vont à l'infini, le second étant fixe, ce n'est pas facile! Une majoration grossière pourrait être faite, je pourrais l'écrire plus tard.
Elvis

2
=2kZje=X2je-12+X2je2EXp(1/2)X2=je=1kZjeX2kP(X2<1)=P(N1/2(0,1)k)=e-1/2X=k2-X/X!P(X2<1)e1/22k/Γ(k+1)dk=d/2

1
dP(X2<1)e1/22k/Γ(k+1)e(d1)/2d(d+1)/2/π
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.