Cette question a été déclenchée par quelque chose que j'ai lu dans ce manuel de statistiques de deuxième cycle et que j'ai entendu (indépendamment) lors de cette présentation lors d'un séminaire statistique. Dans les deux cas, la déclaration était dans les lignes de "parce que la taille de l'échantillon est assez petite, nous avons décidé d'effectuer une estimation via bootstrap au lieu de (ou avec) de cette méthode paramétrique ".
Ils ne sont pas entrer dans les détails, mais sans doute le raisonnement est le suivant: la méthode suppose que les données suivent une certaine distribution paramétrique D . En réalité, la distribution n'est pas exactement D , mais c'est correct tant que la taille de l'échantillon est suffisante. Puisque dans ce cas, la taille de l'échantillon est trop petite, passons au bootstrap (non paramétrique) qui ne fait pas d'hypothèses de distribution. Problème résolu!
À mon avis, ce n'est pas à cela que sert bootstrap. Voici comment je vois les choses: bootstrap peut donner un avantage lorsqu'il est plus ou moins évident qu'il y a suffisamment de données, mais il n'y a pas de solution de forme fermée pour obtenir des erreurs standard, des valeurs p et des statistiques similaires. Un exemple classique consiste à obtenir un CI pour le coefficient de corrélation à partir d’un échantillon d’une distribution normale bivariée: la solution sous forme fermée existe, mais elle est tellement compliquée que l’amorçage est plus simple. Cependant, rien n'implique que bootstrap puisse d'une manière ou d'une autre aider quelqu'un à s'en sortir avec un échantillon de petite taille.
Est-ce que ma perception est correcte?
Si vous trouvez cette question intéressante, voici une autre question plus spécifique sur le bootstrap:
Bootstrap: le problème de l'overfitting
PS Je ne peux pas m'empêcher de partager un exemple flagrant de la «méthode du bootstrap». Je ne divulgue pas le nom de l'auteur, mais il est l'un des «quants» de la génération la plus âgée qui a écrit un livre sur la finance quantitative en 2004. L'exemple est pris de là.
Considérez le problème suivant: supposons que vous avez 4 actifs et 120 observations de rendement mensuel pour chacun. L’objectif est de construire la cdf commune en 4 dimensions des déclarations annuelles. Même pour un seul actif, la tâche semble difficilement réalisable avec seulement 10 observations annuelles, sans parler de l’estimation de la cdf à 4 dimensions. Mais ne vous inquiétez pas, le «bootstrap» vous aidera: prenez toutes les observations à 4 dimensions disponibles, rééchantillonnez 12 avec remplacement et combinez-les pour construire un seul vecteur de déclaration annuelle à 4 dimensions «bootstrapped». Répétez cela 1 000 fois et, voilà, vous vous êtes procuré un «échantillon bootstrap» de 1 000 déclarations annuelles. Utilisez-le comme échantillon iid de taille 1000 aux fins de l'estimation de la cdf ou de toute autre inférence pouvant être tirée d'un historique de mille ans.