Ma compréhension de l'approche bootstrap est basée sur le cadre de Wasserman (presque mot pour mot):
Soit une statistique ( est l'échantillon iid tiré de la distribution ). Supposons que nous voulons estimer - la variance de donné .
L'approche bootstrap suit ces deux étapes:
Estimer avec , où est la fonction de distribution empirique.
Approximative en utilisant la simulation.
Dois-je bien comprendre que la simulation de l'étape 2 pourrait être remplacée par un calcul précis, sauf qu'elle est irréalisable pour des valeurs pratiquement utiles de ? Voici ma pensée: exactement égal à une intégrale de . est une fonction pas à pas, avec un nombre fini de étapes; on peut donc ignorer tous les points sauf les points où a une masse non nulle. Donc l'intégrale est précisément égale à une somme de termes. Une fois que dépasse 14, un simple calcul direct est impossible.
Mais tout ce que nous essayons de faire est de calculer une intégrale. Pourquoi ne pas remplacer la simulation d'amorçage par force brute par l'un des algorithmes numériques traditionnels pour prendre des intégrales? Cela n'entraînerait-il pas une précision beaucoup plus élevée pour le même temps de calcul?
Même quelque chose d'aussi simple que de diviser l'espace d'échantillonnage en sections (peut-être avec des volumes plus petits où la statistique d'échantillon varie plus rapidement) et d'estimer la valeur de la statistique dans chaque section en utilisant le point médian, semble être meilleur que le bootstrap aveugle.
Qu'est-ce que je rate?
Peut-être que le bootstrap fonctionne si bien et si rapidement qu'il n'est pas nécessaire de faire quelque chose de plus compliqué? (Par exemple, si la perte de précision à l'étape 1 est beaucoup plus importante qu'à l'étape 2, les améliorations à l'étape 2 sont plutôt inutiles.)