Calcul dynamique du nombre d'échantillons requis pour estimer la moyenne

J'essaie d'estimer la moyenne d'une distribution plus ou moins gaussienne par échantillonnage. Je n'ai aucune connaissance préalable de sa moyenne ou de sa variance. Chaque échantillon coûte cher à obtenir. Comment puis-je décider dynamiquement du nombre d'échantillons dont j'ai besoin pour obtenir un certain niveau de confiance / précision? Sinon, comment savoir quand je peux arrêter de prélever des échantillons?

Toutes les réponses à des questions comme celle-ci que je peux trouver semblent supposer une certaine connaissance de la variance, mais je dois également le découvrir en cours de route. D'autres sont orientés vers les sondages, et je ne sais pas (débutant que je suis) comment cela se généralise - ma moyenne n'est pas w / in [0,1], etc.

Je pense que c'est probablement une question simple avec une réponse bien connue, mais mon Google-fu me fait défaut. Il me serait même utile de me dire quoi rechercher.

estimation sample-size

— Josh Bleecher Snyder
source

Une raison pour laquelle vous avez marqué cela comme CW? La question semble suffisamment précise pour permettre une seule bonne réponse et ne devrait donc pas être CW.

@josh c'est bien. J'étais simplement curieux de savoir votre choix.

Google "échantillonnage adaptatif" et "échantillonnage séquentiel". Si vous êtes toujours bloqué, incluez "Wald" comme mot-clé, puis continuez historiquement (c.-à-d., Regardez les articles qui font référence au travail de Wald sur l'échantillonnage séquentiel, puis regardez les articles qui les référencent, etc.).

— whuber

@Robby McKilliam: Mais quelles données utilisez-vous? Cette question se pose avant toute collecte de données. Si vous collectez des valeurs une par une et calculez un CI après que chaque nouvelle valeur soit ajoutée à l'ensemble de données, vous ne pouvez pas utiliser de formules standard pour les intervalles en raison des comparaisons multiples corrélées que vous effectuez. Ainsi, vous avez besoin d'une règle d'arrêt qui optimise la somme du risque statistique de votre estimateur et le coût de la collecte de chaque échantillon supplémentaire.

— whuber

@whuber merci! Je digère toujours le matériel, mais je pense que c'est exactement ce que je recherche. Si c'était une réponse, je l'accepterais ...

— Josh Bleecher Snyder

Réponses:

Vous devez rechercher des «conceptions adaptatives bayésiennes». L'idée basique est la suivante:

Vous initialisez l'a priori pour les paramètres d'intérêt.

Avant toute collecte de données, vos priorités seraient diffuses. Au fur et à mesure que des données supplémentaires arrivent, vous réinitialisez l'avant avant d'être le postérieur qui correspond aux `` données + antérieures jusqu'à ce moment ''.
Collecter des données.
Calculez le postérieur en fonction des données et des priors. Le postérieur est ensuite utilisé comme le précédent à l'étape 1 si vous collectez réellement des données supplémentaires.
Évaluez si vos critères d'arrêt sont remplis

$\pm \epsilon$

Vous répétez ensuite les étapes 1, 2 et 3 jusqu'à ce que vos critères d'arrêt de l'étape 4 soient remplis.

— user28
source

Vous voudriez normalement au moins 30 pour invoquer le théorème central limite (bien que ce soit quelque peu arbitraire). Contrairement au cas des sondages, etc., qui sont modélisés à l'aide de la distribution binomiale, vous ne pouvez pas déterminer à l'avance une taille d'échantillon qui garantit un niveau de précision avec un processus gaussien - cela dépend des résidus que vous obtenez qui déterminent l'erreur standard.

Il convient de noter que si vous avez une stratégie d'échantillonnage robuste, vous pouvez obtenir des résultats beaucoup plus précis qu'avec un échantillon beaucoup plus grand avec une mauvaise stratégie.

— James
source

Pourquoi faudrait-il invoquer le CLT lors de l'échantillonnage à partir d'une distribution gaussienne connue (ou supposée)? La moyenne de même un échantillon d'un sera normalement distribuée!

— whuber

Bon point! N'a pas RTQ correctement.

— James