Densité de la distribution normale à mesure que les dimensions augmentent

La question que je veux poser est la suivante: comment la proportion d'échantillons à moins de 1 écart-type de la moyenne d'une distribution normale varie-t-elle à mesure que le nombre de variables augmente?

(Presque) tout le monde sait que dans une distribution normale unidimensionnelle, 68% des échantillons se trouvent dans un écart-type de la moyenne. Et en 2, 3, 4, ... dimensions? Je sais que ça devient moins ... mais de combien (précisément)? Il serait pratique d'avoir un tableau montrant les chiffres pour 1, 2, 3 ... 10 dimensions, ainsi que 1, 2, 3 ... 10 SD. Quelqu'un peut-il pointer vers une telle table?

Un peu plus de contexte - j'ai un capteur qui fournit des données sur jusqu'à 128 canaux. Chaque canal est soumis à un bruit électrique (indépendant). Lorsque je sens un objet d'étalonnage, je peux faire la moyenne d'un nombre suffisant de mesures et obtenir une valeur moyenne sur les 128 canaux, ainsi que 128 écarts-types individuels.

MAIS ... en ce qui concerne les lectures instantanées individuelles, les données ne répondent pas autant à 128 lectures individuelles qu'à une seule lecture d'une quantité vectorielle (jusqu'à) 128 dimensonales. C'est certainement la meilleure façon de traiter les quelques lectures critiques que nous prenons (généralement 4-6 sur 128).

Je veux avoir une idée de ce qui est une variation "normale" et de ce qui est "aberrant" dans cet espace vectoriel. Je suis sûr d'avoir vu un tableau comme celui que j'ai décrit qui s'appliquerait à ce genre de situation - quelqu'un peut-il en indiquer un?

normal-distribution multivariate-analysis

— omatai
source

S'il vous plaît - puis-je avoir des réponses empiriques seulement - je ne comprends pas la plupart des notations mathématiques.

— omatai

Prenons : chaque est normal et les sont indépendants - je suppose que c'est ce que vous voulez dire avec des dimensions plus élevées. $X = (X_1,\dots,X_d) \sim N(0,I)$ $X_i$ $N(0,1)$ $X_i$

Vous diriez que est à 1 sd près de la moyenne lorsque (la distance entre X et sa valeur moyenne est inférieure à 1). Maintenant donc cela se produit avec la probabilité où $X$ $||X|| < 1$ $||X||^2 = X_1^2 +\cdots+X_d^2\sim \chi^2(d)$ $P( \xi < 1 )$ $\xi\sim\chi^2(d)$ . Vous pouvez le trouver dans de bonnes tables carrées chi ...

Voici quelques valeurs:

\begin{array}{ll} d & P (ξ < 1) \\ 1 & 0.68 \\ 2 & 0.39 \\ 3 & 0.20 \\ 4 & 0.090 \\ 5 & 0.037 \\ 6 & 0.014 \\ 7 & 0.0052 \\ 8 & 0.0018 \\ 9 & 0.00056 \\ 10 & 0.00017 \end{array}

$\begin{array}{ll} d& P(\xi < 1)\\ 1 & 0.68\\ 2 & 0.39 \\ 3 & 0.20 \\ 4 & 0.090 \\ 5 & 0.037 \\ 6 & 0.014 \\ 7 & 0.0052 \\ 8 & 0.0018\\ 9 & 0.00056\\ 10& 0.00017\\ \end{array}$

Et pour 2 sd:

\begin{array}{ll} d & P (ξ < 4) \\ 1 & 0.95 \\ 2 & 0.86 \\ 3 & 0.74 \\ 4 & 0.59 \\ 5 & 0.45 \\ 6 & 0.32 \\ 7 & 0.22 \\ 8 & 0.14 \\ 9 & 0.089 \\ 10 & 0.053 \end{array}

$\begin{array}{ll} d & P(\xi < 4)\\ 1 & 0.95\\ 2 & 0.86\\ 3 & 0.74\\ 4 & 0.59\\ 5 & 0.45\\ 6 & 0.32\\ 7 & 0.22\\ 8 & 0.14\\ 9 & 0.089\\ 10 & 0.053\\ \end{array}$

Vous pouvez obtenir ces valeurs dans R avec commads comme pchisq(1,df=1:10), pchisq(4,df=1:10), etc.

Post Scriptum Comme l'a souligné le cardinal dans les commentaires, on peut estimer le comportement asymptotique de ces probabilités. Le CDF d'une variable est $\chi^2(d)$ où

F_{d} (x) = P (d / 2, x / 2) = \frac{γ (d / 2, x / 2)}{Γ (d / 2)}

$F_d(x) = P(d/2,x/2) = {\gamma(d/2, x/2) \over \Gamma(d/2)}$

γ (s, y) = \int_{0}^{y} t^{s - 1} e^{- t} d t

$\gamma(s,y) = \int_0^y t^{s-1} e^{-t} \mathrm d t$ est le incomplet

-fonction

γ

$\gamma$ , et classiquement

Γ (s) = \int_{0}^{\infty} t^{s - 1} e^{- t} d t

$\Gamma(s) = \int_0^\infty t^{s-1} e^{-t} \mathrm d t$

Lorsque est un entier, une intégration répétée par parties montre que $s$ qui est la queue du CDF de la distribution de Poisson.

P (s, y) = e^{- y} \sum_{k = s}^{\infty} \frac{y^{k}}{k!},

$P(s,y) = e^{-y} \sum_{k=s}^\infty {y^k \over k!},$

Or cette somme est dominée par son premier terme (merci beaucoup au cardinal): pour les grands. On peut l'appliquer lorsqueest pair: $P(s,y) \sim {y^s \over s!} e^{-y}$ $s$ $d$ pour les grandspairs, l'avant-dernière équivalence en utilisant la formule de Stirling. De cette formule, nous voyons que la décroissance asymptotique est très rapide lorsqueaugmente.

P (ξ < x) = P (d / 2, x / 2) \sim \frac{1}{(d / 2)!} {(\frac{x}{2})}^{d / 2} e^{- x / 2} \sim \frac{1}{\sqrt{π d}} e^{\frac{1}{2} (d - x)} {(\frac{x}{d})}^{\frac{d}{2}} \sim \frac{1}{\sqrt{π}} e^{- \frac{1}{2} x} d^{- \frac{1}{2} d},

$P(\xi < x) = P(d/2,x/2) \sim {1 \over (d/2)!} \left({x\over 2}\right)^{d/2} e^{-x/2} \sim {1\over\sqrt{\pi d}}e^{{1\over 2}(d-x)} \left({x\over d}\right)^{d\over 2} \sim {1\over\sqrt\pi} e^{-{1\over 2}x} d^{-{1\over 2}d},$

d

$d$

d

$d$

— Elvis
source

Bienvenue sur notre site, Elvis! Bonne réponse. (+1)

— whuber

ξ

$\xi$

d

$d$

Merci pour vos commentaires. Je ne pensais pas que cette réponse recevrait beaucoup d'attention! Il est vrai que c'est une belle forme de malédiction de dimensionnalité ... @cardinal concernant (3) Je ne connais aucun équivalent asymptotique de la fonction gamma incomplète lorsque les premiers paramètres vont à l'infini, le second étant fixe, ce n'est pas facile! Une majoration grossière pourrait être faite, je pourrais l'écrire plus tard.

— Elvis

d

$d$

d = 2 k

$d = 2 k$

Z_{i} = X_{2 i - 1}^{2} + X_{2 i}^{2}

$Z_i = X_{2i-1}^2 + X_{2i}^2$

E x p (1 / 2)

$\mathrm{Exp}(1/2)$

‖ X ‖^{2} = \sum_{i = 1}^{k} Z_{i}

$\|X\|^2 = \sum_{i=1}^k Z_i$

‖ X ‖^{2}

$\|X\|^2$

k

$k$

P (‖ X ‖^{2} < 1) = P (N_{1 / 2} (0, 1) \geq k) = e^{- 1 / 2} \sum_{x = k}^{\infty} 2^{- x} / x!

$\mathbb P(\|X\|^2 < 1 ) = \mathbb P( N_{1/2}(0,1) \geq k) = e^{-1/2} \sum_{x=k}^\infty 2^{-x}/x!$

P (‖ X ‖^{2} < 1) \sim e^{- 1 / 2} 2^{- k} / Γ (k + 1)

$\mathbb P(\|X\|^2 < 1) \sim e^{-1/2} 2^{-k} / \Gamma(k+1)$

d \to \infty

$d\to\infty$

k = d / 2

$k = d/2$

d

$d$

P (‖ X ‖^{2} < 1) \sim e^{- 1 / 2} 2^{- k} / Γ (k + 1) \sim e^{(d - 1) / 2} d^{- (d + 1) / 2} / \sqrt{π}

$\mathbb P(\|X\|^2 < 1 ) \sim e^{-1/2} 2^{-k} / \Gamma(k+1) \sim e^{(d-1)/2} d^{-(d+1)/2} / \sqrt{\pi}$