Comment appelez-vous cette stratégie de sélection dynamique de la taille de l'échantillon?

Imaginez que vous souhaitiez évaluer très rapidement la compressibilité d'un document volumineux. Vous pouvez choisir au hasard une sous-séquence, essayez de la compresser. Cela peut servir de prédiction pour la compressibilité globale du document. Mais quelle doit être la taille de votre échantillon?

Nous avons élaboré la stratégie suivante:

Choisissez une taille d'échantillon arbitraire (petite). Mesurez la compressibilité.
Ensuite, doublez la taille de l'échantillon et mesurez à nouveau la compressibilité. S'il y a peu de changement (disons moins de 10%), alors concluez que vous avez déterminé de manière fiable la compressibilité du document. Sinon, doublez à nouveau la taille de l'échantillon, etc.

Nous sommes tout à fait certains qu'il ne s'agit pas d'une nouvelle stratégie et nous nous demandons si elle est liée à une stratégie bien connue utilisée par les statisticiens.

("Compression" ici est juste un exemple. Fondamentalement, nous sommes intéressés par une métrique qui n'a pas de belles propriétés mathématiques connues, de sorte qu'il n'est pas possible de déterminer analytiquement ce qui pourrait être une bonne taille d'échantillon. Nous n'avons pas d'autre choix que de tomber revenir sur ces heuristiques.)

sampling model-selection sample-size

— Daniel Lemire
source

Cela a été appelé «échantillonnage progressif», par exemple http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.9168&rep=rep1&type=pdf

— CDX
source

La référence donnée par CDX est: Foster Provost, David Jensen et Tim Oates. 1999. Échantillonnage progressif efficace. Dans les actes de la cinquième conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données (KDD '99). ACM, New York, NY, USA, 23-32.

— Daniel Lemire