Bootstrap vs intégration numérique

8

Ma compréhension de l'approche bootstrap est basée sur le cadre de Wasserman (presque mot pour mot):

Soit une statistique ( est l'échantillon iid tiré de la distribution ). Supposons que nous voulons estimer - la variance de donné . $T_n = g(X_1, ..., X_n)$ $X_i$ $F$ $V_F(T_n)$ $T_n$ $F$

L'approche bootstrap suit ces deux étapes:

Estimer avec , où est la fonction de distribution empirique. $V_F(T_n)$ $V_{\hat{F}}(T_n)$ $\hat{F}$

Approximative en utilisant la simulation. $V_{\hat{F}}(T_n)$

Dois-je bien comprendre que la simulation de l'étape 2 pourrait être remplacée par un calcul précis, sauf qu'elle est irréalisable pour des valeurs pratiquement utiles de ? Voici ma pensée: exactement égal à une intégrale de . est une fonction pas à pas, avec un nombre fini de étapes; on peut donc ignorer tous les points sauf les points où a une masse non nulle. Donc l'intégrale est précisément égale à une somme de termes. Une fois que dépasse 14, un simple calcul direct est impossible. $n$ $V_{\hat{F}}$ $T_n(X_1, ..., X_n)d\hat{F}(X_1)d\hat{F}(X_2)...d\hat{F}(X_n)$ $\hat{F}$ $n$ $n$ $d\hat{F}(x)$ $n^n$ $n$

Mais tout ce que nous essayons de faire est de calculer une intégrale. Pourquoi ne pas remplacer la simulation d'amorçage par force brute par l'un des algorithmes numériques traditionnels pour prendre des intégrales? Cela n'entraînerait-il pas une précision beaucoup plus élevée pour le même temps de calcul?

Même quelque chose d'aussi simple que de diviser l'espace d'échantillonnage en sections (peut-être avec des volumes plus petits où la statistique d'échantillon varie plus rapidement) et d'estimer la valeur de la statistique dans chaque section en utilisant le point médian, semble être meilleur que le bootstrap aveugle.

Qu'est-ce que je rate?

Peut-être que le bootstrap fonctionne si bien et si rapidement qu'il n'est pas nécessaire de faire quelque chose de plus compliqué? (Par exemple, si la perte de précision à l'étape 1 est beaucoup plus importante qu'à l'étape 2, les améliorations à l'étape 2 sont plutôt inutiles.)

bootstrap computational-statistics

— max
source

6

Le bootstrap fonctionne remarquablement bien. Si vous voulez estimer la moyenne, la variance et certains quantiles pas trop extrêmes de la distribution de certains de petite dimension , quelques centaines à quelques milliers de rééchantillons rendront l'erreur de Monte Carlo négligeable , pour de nombreux problèmes réalistes. En tant que sous-produit heureux, il vous donne également un échantillon de , qui peut être utilisé pour les procédures de diagnostic, si vous le souhaitez, et il n'est pas trop difficile d'obtenir des mesures acceptables de la taille du Les erreurs de Monte Carlo le sont. $\hat\theta(Y)$ $\hat\theta(Y^*)$

Adapter un modèle de régression, par exemple mille fois, n'est pas (aujourd'hui) un gros problème, que ce soit en termes de temps CPU ou d'effort de codage.

En revanche, l'intégration numérique (à l'exclusion des méthodes de Monte Carlo) peut être difficile à coder - vous devez décider comment diviser l'espace échantillon, par exemple, ce qui n'est pas une tâche triviale. Ces méthodes ne donnent pas non plus les diagnostics, et la précision avec laquelle ils estiment la véritable intégrale est notoirement difficile à évaluer.

Pour faire la plupart de ce que fait le bootstrap, mais plus rapidement, jetez un œil à la méthode généralisée des moments - pour une inférence basée sur des modèles de régression (et bien d'autres), vous pouvez le considérer comme une approximation rapide et précise de ce que le bootstrap non paramétrique donnerait.

— client
source

Merci. Étant donné que l'étape 2 est assez bien gérée, je suis curieux, le GMM ou toute autre technique peut-il corriger l'imprécision de l'étape 1 (où nous estimons la variance de la distribution vraie avec la variance de la distribution empirique)?

— max

Le GMM "Vanille plate" utilise des approximations assez simples de la vraie covariance. L'utilisation d'approximations d'ordre supérieur (approximations de point de selle et similaires) peut être utilisée, mais vous devrez les coder vous-même et éventuellement faire des hypothèses légèrement plus fortes que le GMM typique pour vous assurer d'obtenir la "meilleure" approximation.

— invité

3

La simulation la plus souvent utilisée en bootstrap pour le calcul numérique de la variance pourrait en principe être remplacée par un calcul exact ou une approximation alternative de l'intégrale. Il faut cependant être conscient qu'une simulation "par force brute" comme alternative aux autres techniques d'intégration numérique est en fait une bonne idée. La réponse à la question "Cela n'entraînerait-il pas une précision beaucoup plus élevée pour le même temps de calcul?" est pas .

Mais pourquoi en est-il ainsi? Le fait est que l’intégration numérique standard dans les dimensions élevées s’adapte mal à la dimension. Si vous devez diviser l'espace en points de grille réguliers, disons avec points de grille dans chaque coordonnée, vous vous retrouvez avec points de grille au total. L'approximation obtenue par simulation (connue sous le nom d'intégration Monte Carlo) peut être considérée comme un choix intelligent d'évaluations de fonctions. Au lieu d'évaluations de grille chronophages, nous évaluons uniquement la fonction que nous intégrons aux points sélectionnés. L'erreur est, en raison de la nature aléatoire des points sélectionnés, aléatoire, mais peut généralement être contrôlée par le théorème de la limite centrale. $r$ $r^n$

Il existe d'autres méthodes telles que l'intégration quasi-Monte Carlo, que je ne connais pratiquement pas, qui font des évaluations de fonctions intelligentes basées sur des nombres quasi-aléatoires au lieu des nombres pseudo-aléatoires que nous utilisons pour l'intégration Monte Carlo ordinaire.

— NRH
source