Prenons un échantillon de nombres réels. Disons que nous voulons estimer la tendance centrale de la population et avoir une idée de notre incertitude autour de cette estimation.
Mettons de côté les hypothèses sur la répartition de la population et considérons les deux approches suivantes.
- Obtenez un échantillon d'amorçage de l'échantillon d'entrée. Autrement dit, échantillonner avec remplacement (par exemple, obtenir 100 rééchantillons) et calculer la moyenne pour chaque rééchantillonnage. Nous produisons ensuite la moyenne et les intervalles de confiance sur la distribution empirique résultante des moyennes.
- Nous générons la moyenne de l'échantillon d'entrée et les centiles autour de la moyenne pour transmettre l'incertitude autour de l'estimation.
Bootstrap vs échantillon d'origine:
- Bien que je comprenne quelle approche # 1 fait. Y a-t-il un estimateur sous-jacent derrière # 2?
- Qu'est-ce que les centiles autour de la moyenne dans # 2 transmettraient contrairement à l'IC de # 1? L'approche n ° 2 donne un sentiment d'incertitude, mais j'ai du mal à la relier à une interprétation fréquentiste ou bayésienne.
- La méthode n ° 2 fournirait-elle un meilleur estimateur de la moyenne de la population? (par exemple, moins de biais et moins de variance)?