Ceci est probablement une explication plus technique destinée aux personnes qui comprennent certaines statistiques et mathématiques (calcul, au moins). Voici une diapositive d'un cours sur les bases de sondage que j'ai enseigné il y a quelque temps:
Quelques explications sont nécessaires, bien sûr. est la procédure permettant d’obtenir la statistique à partir des données existantes (ou, pour être techniquement précis, d’une fonction fonctionnelle de la fonction de distribution aux nombres réels; par exemple, la moyenne est , où pour la fonction de distribution d'échantillon , le est compris comme une masse ponctuelle à un point d'échantillon). Dans la population, notée , l'application de donne le paramètre d'intérêt . Maintenant, nous avons pris un échantillon (la première flèche en haut) et avons la fonction de distribution empirique - nous lui appliquons pour obtenir l'estimationTE[X]=∫xdFFn()dFF()TθFn()Tθ^n . À quelle distance est-il de , nous nous demandons? Quelle est la distribution que la quantité aléatoire peut avoir autour de ? C'est le point d'interrogation dans le coin inférieur gauche du diagramme, et c'est la question à laquelle le bootstrap tente de répondre. Pour réaffirmer le point de vue de gung, ce n'est pas la question de la population, mais celle d'une statistique particulière et de sa distribution.θθ^nθ
Si nous pouvions répéter notre procédure d'échantillonnage, nous pourrions obtenir cette distribution et en apprendre davantage. Eh bien, cela dépasse généralement nos capacités. Toutefois, si
- Fn est assez proche de , dans un sens approprié, etF
- la cartographie est assez lisse, c'est-à-dire que si nous prenons de petites déviations par rapport à , les résultats seront cartographiés à des nombres proches de ,TF()θ
nous pouvons espérer que la procédure de bootstrap fonctionnera. A savoir, nous prétendons que notre distribution est plutôt que , et que nous pouvons amusons tous les échantillons possibles - et il y aura tels échantillons, ce qui est pratique pour . Je répète: le bootstrap crée la distribution d'échantillonnage de autour du paramètre "true" et nous espérons qu'avec les deux conditions ci-dessus, cette distribution d'échantillonnage donne des informations sur la distribution d'échantillonnage. de autour de :Fn()F()nnn≤5θ^∗nθ^nθ^nθ
θ^∗n to θ^n is like θ^n to θ
Maintenant, au lieu de suivre les flèches dans un sens et de perdre certaines informations / précision le long de ces flèches, nous pouvons revenir en arrière et dire quelque chose sur la variabilité de autour de .θ^∗nθ^n
Les conditions ci-dessus sont énoncées de manière extrêmement technique dans le livre de Hall (1991) . La compréhension du calcul que j’ai dit peut être nécessaire avant de pouvoir regarder cette diapositive est la deuxième hypothèse concernant la régularité: dans un langage plus formel, le fonctionnel doit posséder un dérivé faible. La première condition est, bien sûr, une déclaration asymptotique: plus votre échantillon est grand, plus devrait se rapprocher de ; et les distances de à devraient être du même ordre de grandeur que celles de à . Ces conditions peuvent casser, et elles cassentTFnFθ^∗nθ^nθ^nθdans un certain nombre de situations pratiques avec des statistiques assez étranges et / ou des systèmes d'échantillonnage qui ne produisent pas de distributions empiriques qui sont assez proches .F
Maintenant, d'où viennent ces 1000 échantillons, ou quel que soit le nombre magique,? Cela vient de notre incapacité à tirer tous les échantillons, nous en prenons donc un sous-ensemble aléatoire. La flèche la plus à droite "simuler" indique une autre approximation que nous sommes en train de faire pour obtenir la distribution de autour de , et c’est-à-dire que notre distribution simulée de Monte Carlo de est une assez bonne approximation de la distribution bootstrap complète de autour de .θ n θ θ ( * r ) n θ * n θ nnnθ^nθθ^(∗r)nθ^∗nθ^n