C'est une vieille question, mais la réponse acceptée n'est pas correcte ni complète. L'utilisateur souhaite calculer l'écart-type sur 12 mois, l'écart moyen et l'écart-type étant déjà calculés sur chaque mois. En supposant que le nombre d'échantillons de chaque mois soit identique, il est alors possible de calculer la moyenne et la variance de l'échantillon sur l'année à partir des données de chaque mois. Pour simplifier, supposons que nous ayons deux ensembles de données:
X={x1,....xN}
Y={y1,....,yN}
avec des valeurs connues d'échantillon moyen et de variance d'échantillon, , , , .μxμyσ2xσ2y
Maintenant, nous voulons calculer les mêmes estimations pour
Z={x1,....,xN,y1,...,yN} .
Considérez que , sont calculés comme :μxσ2x
μx=∑Ni=1xiN
σ2x=∑Ni=1x2iN−μ2x
Pour estimer la moyenne et la variance par rapport à l'ensemble total, nous devons calculer:
μz=∑Ni=1xi+∑Ni=1yi2N=(μx+μy)/2
σ2z=∑Ni=1x2i+∑Ni=1y2i2N−μ2z
σ2z=12(∑Ni=1x2iN−μ2x+∑Ni=1y2iN−μ2y)+12(μ2x+μ2y)−(μx+μy2)2
σ2z=12(σ2x+σ2y)+(μx−μy2)2
Donc, si vous avez la variance sur chaque sous-ensemble et que vous voulez la variance sur l'ensemble, vous pouvez calculer la moyenne des variances de chaque sous-ensemble si elles ont toutes la même moyenne. Sinon, vous devez ajouter la variance de la moyenne de chaque sous-ensemble.
Supposons qu'au cours du premier semestre de l'année, nous produisions exactement 1000 MWh par jour et dans les secondes qui suivent, nous en produisions 2000 MWh par jour. La moyenne et la variance de la production d’énergie dans la première moitié et la seconde moitié sont respectivement de 1000 et 2000 pour la moyenne et la variance est de 0 pour les deux moitiés. Maintenant, il y a deux choses différentes qui pourraient nous intéresser:
1- Nous voulons calculer la variance de la production d'énergie sur l'année entière : ensuite, en calculant la moyenne des deux variances, nous arrivons à zéro, ce qui n'est pas correct car l'énergie journalière sur toute l'année n'est pas constante. Dans ce cas, nous devons ajouter la variance de toutes les moyennes de chaque sous-ensemble. Mathématiquement, dans ce cas, la variable aléatoire d’intérêt est la production d’énergie par jour. Nous avons des statistiques d'échantillon sur des sous-ensembles et nous voulons calculer les statistiques d'échantillon sur une période plus longue.
2- Nous voulons calculer la variance de la production d'énergie par an: En d'autres termes, nous nous intéressons à la quantité de production d'énergie qui change d'une année à l'autre. Dans ce cas, la moyenne de la variance donne la réponse correcte, qui est 0, car chaque année, nous produisons exactement 1 500 MW en moyenne. Mathématiquement, dans ce cas, la variable d'intérêt aléatoire est la moyenne de la production d'énergie par jour, où le calcul de la moyenne est effectué sur l'ensemble de l'année.