Le CLT (au moins sous certaines de ses diverses formes) nous indique que dans la limite de distribution d'un seul échantillon standardisé moyenne ( ) converge vers une distribution normale (sous certaines conditions).n→∞X¯−μσ/n√
Le CLT ne nous dit pas ce qui se passe à ou .n=50n=50,000
Mais en tentant de motiver le CLT, en particulier lorsqu'aucune preuve du CLT n'est offerte, certaines personnes s'appuient sur la distribution d'échantillonnage de pour les échantillons finis et montrent que lorsque des échantillons plus importants sont prélevés, la distribution d'échantillonnage se rapproche de la Ordinaire.X¯
À strictement parler, cela ne démontre pas le CLT, c'est plus près de démontrer le théorème de Berry-Esseen, car il démontre quelque chose sur la vitesse à laquelle l'approche de la normalité entre en jeu - mais cela nous conduirait à son tour au CLT, donc cela sert assez bien de motivation (et en fait, quelque chose comme le Berry-Esseen se rapproche de toute façon de ce que les gens veulent réellement utiliser dans des échantillons finis, de sorte que la motivation peut dans un certain sens être plus utile dans la pratique que le théorème de la limite centrale lui-même) .
la distribution de ces moyennes d'échantillon serait normale.
Eh bien, non, ils ne seraient pas normaux mais ils seraient en pratique très proches de la normale (les hauteurs sont quelque peu asymétriques mais pas très asymétriques).
[Notez encore que le CLT ne nous dit vraiment rien sur le comportement des moyennes d'échantillon pour ; c'est à cela que je voulais en venir avec ma discussion précédente sur Berry-Esseen, qui traite de la distance d'un cdf normal la fonction de distribution des moyennes normalisées peut être pour des échantillons finis]n=50
Le cas du monde réel auquel je pense est de faire des statistiques sur un ensemble de données de 50 000 utilisateurs de Twitter. Cet ensemble de données n'est évidemment pas des échantillons répétés, c'est juste un grand échantillon de 50 000.
Pour de nombreuses distributions, une moyenne d'échantillon de 50 000 articles aurait très proche d'une distribution normale - mais ce n'est pas garanti, même à n = 50 000 que vous aurez très proche d'une distribution normale (si la distribution des articles individuels est suffisamment par exemple, alors la distribution des moyennes des échantillons peut encore être suffisamment asymétrique pour rendre intenable une approximation normale).
(Le théorème de Berry-Esseen nous amènerait à prévoir que ce problème pourrait se produire - et il est évident que c'est le cas. échantillon normalisé signifie être proche de la normale.)