Moi aussi, j'ai été séduit à la fois par le bootstrap et par le théorème de Bayes, mais je ne pouvais pas comprendre les justifications du bootstrap jusqu'à ce que je le regarde d'un point de vue bayésien. Ensuite, comme je l'explique ci-dessous, la distribution bootstrap peut être considérée comme une distribution bayésienne postérieure, ce qui rend la logique (a?) Évidente de l'initialisation, et a également l'avantage de clarifier les hypothèses retenues. Vous trouverez plus de détails sur l'argument ci-dessous, ainsi que sur les hypothèses retenues, dans https://arxiv.org/abs/1803.06214 (pages 22-26).
Par exemple, qui est configuré sur la feuille de calcul à l’ adresse http://woodm.myweb.port.ac.uk/SL/resample.xlsx (cliquez sur l’onglet Bootstrap en bas de l’écran), supposons que nous ayons un échantillon de 9 mesures avec une moyenne de 60. Lorsque j'ai utilisé le tableur pour produire 1000 rééchantillons avec remplacement à partir de cet échantillon et arrondi les moyennes au nombre pair le plus proche, 82 de ces moyennes étaient 54. L'idée de bootstrap est que nous utiliser l'échantillon comme une population "fictive" pour voir à quel point les moyennes des échantillons de 9 sont susceptibles d'être variables, ce qui suggère que la probabilité qu'un échantillon soit en moyenne inférieur de 6 à la moyenne de la population (dans ce cas, la population simulée basée sur la échantillon avec une moyenne de 60) est de 8,2%. Et nous pouvons arriver à une conclusion similaire sur les autres barres de l'histogramme de rééchantillonnage.
Imaginons à présent que la moyenne de la population réelle soit de 66. Si tel est le cas, notre estimation de la probabilité que la moyenne de l'échantillon soit égale à 60 (soit les données) est de 8,2% (en utilisant la conclusion du paragraphe ci-dessus). que 60 est 6 inférieur à la moyenne de population hypothétique de 66). Écrivons ceci comme
P (Donnée donnée = 66) = 8,2%
et cette probabilité correspond à une valeur x de 54 sur la distribution de rééchantillonnage. Le même type d'argument s'applique à chaque moyenne de population possible comprise entre 0, 2, 4 ... 100. Dans chaque cas, la probabilité provient de la distribution de rééchantillonnage - mais cette distribution se reflète dans la moyenne de 60.
Appliquons maintenant le théorème de Bayes. La mesure en question ne peut prendre que des valeurs comprises entre 0 et 100. Par conséquent, si vous arrondissez au nombre pair le plus proche, les possibilités pour la moyenne de la population sont 0, 2, 4, 6, ... 100. Si nous supposons que la distribution antérieure est plate, chacune d’elles a une probabilité antérieure de 2% (à 1 dp), et le théorème de Bayes nous dit que
P (PopMean = 66 Données données) = 8,2% * 2% / P (Données)
où
P (Données) = P (PopMean = 0 Données données) * 2% + P (PopMean = 2 Données données) * 2% + ... + P (PopMean = 100 Données données) * 2%
Nous pouvons maintenant annuler les 2% et nous rappeler que la somme des probabilités doit être égale à 1 puisque les probabilités sont simplement celles de la distribution de rééchantillonnage. Ce qui nous laisse avec la conclusion que
P (PopMean = 66) = 8,2%
En se souvenant que 8,2% est la probabilité de la distribution de rééchantillonnage correspondant à 54 (au lieu de 66), la distribution postérieure est simplement la distribution de rééchantillonnage reflétée dans la moyenne de l'échantillon (60). En outre, si la distribution de rééchantillonnage est symétrique en ce sens que les asymétries sont aléatoires - comme c'est le cas dans beaucoup d'autres cas, nous pouvons considérer que la distribution de rééchantillonnage est identique à la distribution de probabilité postérieure.
Cet argument repose sur diverses hypothèses, la principale étant que la distribution antérieure est uniforme. Celles-ci sont détaillées plus en détail dans l'article cité ci-dessus.