Imaginez que vous souhaitiez évaluer très rapidement la compressibilité d'un document volumineux. Vous pouvez choisir au hasard une sous-séquence, essayez de la compresser. Cela peut servir de prédiction pour la compressibilité globale du document. Mais quelle doit être la taille de votre échantillon?
Nous avons élaboré la stratégie suivante:
- Choisissez une taille d'échantillon arbitraire (petite). Mesurez la compressibilité.
- Ensuite, doublez la taille de l'échantillon et mesurez à nouveau la compressibilité. S'il y a peu de changement (disons moins de 10%), alors concluez que vous avez déterminé de manière fiable la compressibilité du document. Sinon, doublez à nouveau la taille de l'échantillon, etc.
Nous sommes tout à fait certains qu'il ne s'agit pas d'une nouvelle stratégie et nous nous demandons si elle est liée à une stratégie bien connue utilisée par les statisticiens.
("Compression" ici est juste un exemple. Fondamentalement, nous sommes intéressés par une métrique qui n'a pas de belles propriétés mathématiques connues, de sorte qu'il n'est pas possible de déterminer analytiquement ce qui pourrait être une bonne taille d'échantillon. Nous n'avons pas d'autre choix que de tomber revenir sur ces heuristiques.)