Certains livres indiquent une taille de l' échantillon de taille 30 ou plus est nécessaire pour le théorème de la limite centrale pour donner une bonne approximation pour .X¯
Cette règle d'or courante est à peu près complètement inutile. Il existe des distributions non normales pour lesquelles n = 2 fonctionnera correctement et des distributions non normales pour lesquelles beaucoup plus grand est insuffisant - donc sans restriction explicite sur les circonstances, la règle est trompeuse. Dans tous les cas, même si c'était un peu vrai, le n requis varierait en fonction de ce que vous faisiez. Souvent, vous obtenez de bonnes approximations près du centre de la distribution à petit n , mais vous avez besoin d'un n beaucoup plus grand pour obtenir une approximation décente dans la queue.nnnn
Edit: Voir les réponses à cette question pour des opinions nombreuses mais apparemment unanimes sur cette question, et quelques bons liens. Je ne m'attarderai cependant pas sur ce point, car vous le comprenez déjà clairement.
Je veux voir quelques exemples de distributions où même avec un grand échantillon (peut-être 100 ou 1000 ou plus), la distribution de la moyenne de l'échantillon est encore assez asymétrique.
Les exemples sont relativement faciles à construire; un moyen simple est de trouver une distribution infiniment divisible qui n'est pas normale et de la diviser. Si vous en avez un qui s'approchera de la normale lorsque vous calculez la moyenne ou le résumez, commencez à la limite de «proche de la normale» et divisez-le autant que vous le souhaitez. Ainsi, par exemple:
Considérons une distribution Gamma avec le paramètre de forme . Prenez l'échelle comme 1 (l'échelle n'a pas d'importance). Supposons que vous considérez comme juste "suffisamment normal". Alors une distribution pour laquelle vous devez obtenir 1000 observations pour être suffisamment normale a une distribution .αGamma ( α 0 / 1000 , 1 )Gamma ( α0, 1 )Gamma ( α0/ 1000,1)
Donc, si vous pensez qu'un Gamma avec est juste «assez normal» -α = 20
Divisez ensuite par 1000, pour obtenir :α = 0,02α = 20α = 0,02
La moyenne de 1000 d'entre eux aura la forme du premier pdf (mais pas son échelle).
Si vous choisissez plutôt une distribution infiniment divisible qui ne se rapproche pas de la normale, comme par exemple le Cauchy, alors il peut ne pas y avoir de taille d'échantillon pour laquelle les moyennes des échantillons ont des distributions approximativement normales (ou, dans certains cas, elles peuvent toujours s'approcher de la normalité, mais vous n'avez pas d'effet pour l'erreur standard).σ/ n--√
@ l'argument de whuber au sujet des distributions contaminées est très bon; il peut être utile d'essayer une simulation avec ce cas et de voir comment les choses se comportent sur de nombreux échantillons.