Je suis un débutant en statistiques, donc je m'excuse à l'avance si je pose une question braindead. J'ai cherché des réponses à ma question, mais je trouve que beaucoup de sujets sont soit trop spécifiques, soit dépassent rapidement ce que je comprends actuellement.
J'ai quelques travaux de simulation qui incluent de grands ensembles de données qui deviennent impossibles à simuler de manière exhaustive. Pour le plus petit de mes ensembles de données, une analyse exhaustive présente la distribution suivante des résultats d'un total de 9180900 tests.
Résultat / fréquence:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
La signification des chiffres n'a pas d'importance; ce qui importe, c'est que les ensembles de données plus volumineux que je possède peuvent s'étendre en milliards de tests et devenir beaucoup trop longs à exécuter. Je dois limiter la charge de travail.
Je pense que je devrais pouvoir échantillonner à partir de l'ensemble complet de tests pour dériver une distribution pour l'échantillon, et déduire (dans certaines limites) que les résultats d'une simulation exhaustive présenteraient à peu près la même distribution. Il n'y a pas de biais inhérent aux tests qui sont effectués, donc le choix uniforme des entrées au hasard devrait fournir un échantillon valide.
Ce que je ne comprends pas encore, c'est comment procéder pour sélectionner la taille de mon échantillon. En particulier, la distribution présente une queue étrange, et je crains qu'un échantillonnage trop petit ne perde les basses fréquences. (Les 140 occurrences de '4' ne représentent que 0,0015% de la population!)
Donc, ma question est, quelle est la meilleure façon de calculer une taille d'échantillon avec laquelle je peux affirmer un certain niveau de qualité dans mes résultats?
Ou est-ce que je pose la mauvaise question?