15

J'exécute une expérience où je collecte des échantillons (indépendants) en parallèle, je calcule la variance de chaque groupe d'échantillons et maintenant je veux combiner ensuite tout pour trouver la variance totale de tous les échantillons.

J'ai du mal à trouver une dérivation pour cela car je ne suis pas sûr de la terminologie. Je pense à cela comme une partition d'un VR.

Je veux donc trouver $Var(X)$ partir de $Var(X_1)$ , $Var(X_2)$ , ..., et $Var(X_n)$ , où $X$ = $[X_1, X_2, \dots, X_n]$ .

EDIT: les partitions ne sont pas de la même taille / cardinalité, mais la somme des tailles de partition est égale au nombre d'échantillons dans l'ensemble d'échantillons global.

EDIT 2: Il existe une formule pour un calcul parallèle ici , mais elle ne couvre que le cas d'une partition en deux ensembles, pas ensembles. $n$

variance

— gallamine
source

Est-ce la même que ma question ici: mathoverflow.net/questions/64120/…

Que signifie cette dernière tranche? Et qu'entendez-vous par "variance totale"? Est-ce autre chose que la variance de l'ensemble de données combiné?

— whuber

@whuber quelle dernière tranche? "variance totale" signifie la variance de l'ensemble de données total.

— gallamine

L'expression

pourrait signifier beaucoup de choses (bien que ce soit classiquement un vecteur): je cherchais une clarification.

[X_{1}, X_{2}, \dots, X_{n}]

$[X_1, X_2, \dots, X_n]$

— whuber

22

La formule est assez simple si tous les sous-échantillons ont la même taille d'échantillon. Si vous aviez sous-échantillons de taille (pour un total de échantillons), alors la variance de l'échantillon combiné dépend de la moyenne et de la variance de chaque sous-échantillon: $g$ $k$ $gk$ $E_j$ $V_j$ où parsignifie la variance des moyennes de l'échantillon.

V a r (X_{1}, \dots, X_{g k}) = \frac{k - 1}{g k - 1} (\sum_{j = 1}^{g} V_{j} + \frac{k (g - 1)}{k - 1} V a r (E_{j})),

$Var(X_1,\ldots,X_{gk}) = \frac{k-1}{gk-1}(\sum_{j=1}^g V_j + \frac{k(g-1)}{k-1} Var(E_j)),$

V a r (E_{j})

$Var(E_j)$

Une démonstration en R:

> x <- rnorm(100)
> g <- gl(10,10)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 9/99*(sum(vs) + 10*var(mns))
[1] 1.033749
> var(x)
[1] 1.033749

Si les tailles d'échantillon ne sont pas égales, la formule n'est pas si agréable.

EDIT: formule pour des tailles d'échantillon inégales

S'il y a sous-échantillons, chacun avec éléments pour un total de valeurs, alors $g$ $k_j, j=1,\ldots,g$ $n=\sum{k_j}$ où

V a r (X_{1}, \dots, X_{n}) = \frac{1}{n - 1} (\sum_{j = 1}^{g} (k_{j} - 1) V_{j} + \sum_{j = 1}^{g} k_{j} ({\bar{X}}_{j} - \bar{X})^{2}),

$Var(X_1,\ldots,X_{n}) = \frac{1}{n-1}\left(\sum_{j=1}^g (k_j-1) V_j + \sum_{j=1}^g k_j (\bar{X}_j - \bar{X})^2\right),$

est la moyenne pondérée de toutes les moyennes (et égale à la moyenne de toutes les valeurs).

\bar{X} = (\sum_{j = 1}^{g} k_{j} {\bar{X}}_{j}) / n

$\bar{X} = (\sum_{j=1}^gk_j\bar{X}_j)/n$

Encore une fois, une démonstration:

> k <- rpois(10, lambda=10)
> n <- sum(k)
> g <- factor(rep(1:10, k))
> x <- rnorm(n)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 1/(n-1)*(sum((k-1)*vs) + sum(k*(mns-weighted.mean(mns,k))^2))
[1] 1.108966
> var(x)
[1] 1.108966

$(X_{ji}-\bar{X})^2$ $\bar{X}_j$ $[(X_{ji}-\bar{X}_j)-(\bar{X}_j-\bar{X})]^2$

— Aniko
source

Merci. Malheureusement, je ne peux pas garantir que mes partitions sont toutes de la même taille. J'exécute un processus massivement parallèle où je dois calculer les variances de chaque partition en parallèle puis les combiner à la fin, mais les résultats / échantillons de chaque processus parallèle ne sont pas égaux (c'est une simulation Monte Carlo des photons reçus).

— gallamine

3

Je ne peux pas attribuer +1 à cette formule super utile pour le calcul parallèle dans un environnement d'entrepôt de données

— Noah Yetter

1

Il s'agit simplement d'un complément à la réponse d'aniko avec un aperçu approximatif de la dérivation et du code python, donc tous les crédits vont à aniko.

dérivation

$X_j \in X = \{X_1, X_2, \ldots, X_g\}$ $g$ $k_j = |X_j|$

\begin{aligned} E_{j} & = E [X_{j}] = \frac{1}{k_{j}} \sum_{i = 1}^{k_{j}} X_{j i} \\ V_{j} & = V a r [X_{j}] = \frac{1}{k_{j} - 1} \sum_{i = 1}^{k_{j}} (X_{j i} - E_{j})^{2} \end{aligned}

$\begin{align*} E_j & = \mathrm{E}\left[X_j\right] = \frac{1}{k_j} \sum_{i=1}^{k_j} X_{ji}\\ V_j & = \mathrm{Var}\left[X_j\right] = \frac{1}{k_j-1} \sum_{i=1}^{k_j} (X_{ji} - E_j)^2 \end{align*}$ respectively. If we set

n = \sum_{j = 1}^{g} k_{j}

$n = \sum_{j=1}^g k_j$ , the variance of the total dataset is given by:

\begin{aligned} V a r [X] & = \frac{1}{n - 1} \sum_{j = 1}^{g} \sum_{i = 1}^{k_{j}} (X_{j i} - E [X])^{2} \\ = \frac{1}{n - 1} \sum_{j = 1}^{g} \sum_{i = 1}^{k_{j}} ((X_{j i} - E_{j}) - (E [X] - E_{j}))^{2} \\ = \frac{1}{n - 1} \sum_{j = 1}^{g} \sum_{i = 1}^{k_{j}} (X_{j i} - E_{j})^{2} - 2 (X_{j i} - E_{j}) (E [X] - E_{j}) + (E [X] - E_{j})^{2} \\ = \frac{1}{n - 1} \sum_{j = 1}^{g} (k_{j} - 1) V_{j} + k_{j} (E [X] - E_{j})^{2} . \end{aligned}

$\begin{align*} \mathrm{Var}\left[X\right] & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} (X_{ji} - \mathrm{E}\left[X\right])^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} \big((X_{ji} - E_j) - (\mathrm{E}\left[X\right] - E_j)\big)^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} (X_{ji} - E_j)^2 - 2(X_{ji} - E_j)(\mathrm{E}\left[X\right] - E_j) + (\mathrm{E}\left[X\right] - E_j)^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} (k_j - 1) V_j + k_j (\mathrm{E}\left[X\right] - E_j)^2. \end{align*}$ If we have the same size

k

$k$ for each part, i.e.

\forall j : k_{j} = k

$\forall j: k_j = k$ , above formula simplifies to

\begin{aligned} V a r [X] & = \frac{1}{n - 1} \sum_{j = 1}^{g} (k - 1) V_{j} + k (g - 1) V a r [E_{j}] \\ = \frac{k - 1}{n - 1} \sum_{j = 1}^{g} V_{j} + \frac{k (g - 1)}{k - 1} V a r [E_{j}] \end{aligned}

$\begin{align*} \mathrm{Var}\left[X\right] & = \frac{1}{n-1} \sum_{j=1}^g (k-1) V_j + k(g-1) \mathrm{Var}\left[E_j\right] \\ & = \frac{k-1}{n-1} \sum_{j=1}^g V_j + \frac{k(g-1)}{k-1} \mathrm{Var}\left[E_j\right] \end{align*}$

python code

The following python function works for arrays that have been splitted along the first dimension and implements the "more complex" formula for differently sized parts.

import numpy as np

def combine(averages, variances, counts, size=None):
    """
    Combine averages and variances to one single average and variance.

    # Arguments
        averages: List of averages for each part.
        variances: List of variances for each part.
        counts: List of number of elements in each part.
        size: Total number of elements in all of the parts.
    # Returns
        average: Average over all parts.
        variance: Variance over all parts.
    """
    average = np.average(averages, weights=counts)

    # necessary for correct variance in case of multidimensional arrays
    if size is not None:
        counts = counts * size // np.sum(counts, dtype='int')

    squares = (counts - 1) * variances + counts * (averages - average)**2
    return average, np.sum(squares) / (size - 1)

It can be used as follows:

# sizes k_j and n
ks = np.random.poisson(10, 10)
n = np.sum(ks)

# create data
x = np.random.randn(n, 20)
parts = np.split(x, np.cumsum(ks[:-1]))

# compute statistics on parts
ms = [np.mean(p) for p in parts]
vs = [np.var(p, ddof=1) for p in parts]

# combine and compare
combined = combine(ms, vs, ks, x.size)
numpied = np.mean(x), np.var(x, ddof=1)
distance = np.abs(np.array(combined) - np.array(numpied))
print('combined --- mean:{: .9f} - var:{: .9f}'.format(*combined))
print('numpied  --- mean:{: .9f} - var:{: .9f}'.format(*numpied))
print('distance --- mean:{: .5e} - var:{: .5e}'.format(*distance))

— Mr Tsjolder
source

Comment calculer la variance d'une partition de variables

dérivation

python code