Généralisons, afin de nous concentrer sur le nœud du problème. J'exposerai les moindres détails afin de ne laisser aucun doute. L'analyse ne requiert que les éléments suivants:
La moyenne arithmétique d'un ensemble de nombres est définie comme étantz1, … , Zm
1m( z1+ ⋯ + zm) .
L'attente est un opérateur linéaire. Autrement dit, lorsque sont des variables aléatoires et sont des nombres, alors l'attente d'une combinaison linéaire est la combinaison linéaire des attentes,α iZje, i = 1 , … , mαje
E ( α1Z1+ ⋯ + αmZm) = α1E ( Z1) + ⋯ + αmE ( Zm) .
Soit un échantillon obtenu à partir d'un ensemble de données en prenant éléments uniformément de avec remplacement. Soit soit la moyenne arithmétique de . Il s'agit d'une variable aléatoire. alors( B 1 , … , B k ) x = ( x 1 , … , x n ) k x m ( B ) BB( B1, … , Bk)x = ( x1, … , Xn)kXm ( B )B
E ( m ( B ) ) = E ( 1k( B1+ ⋯ + Bk) ) = 1k( E ( B1) + ⋯ + E ( Bk) )
suit par la linéarité de l'attente. Puisque les éléments de sont tous obtenus de la même façon, ils ont tous la même attente, b dit:Bb
E ( B1) = ⋯ = E (Bk) = b .
Cela simplifie ce qui précède pour
E ( m ( B ) ) = 1k( b + b + ⋯ + b ) = 1k( k b ) = b .
Par définition, l'attente est la somme des valeurs pondérées par la probabilité. Étant donné que chaque valeur de est supposée avoir une chance égale de 1 / n d'être sélectionnée,X1 / n
E (m(B))=b= E ( B1) = 1nX1+ ⋯ + 1nXn= 1n( x1+ ⋯ + xn) = x¯,
la moyenne arithmétique des données.
Pour répondre à la question, si l'on utilise la moyenne des données pour estimer la moyenne de la population, alors la moyenne bootstrap (ce qui est le cas k = n ) est également égale à ˉ x , et est donc identique comme estimateur de la moyenne de la population.X¯k = nX¯
Pour les statistiques qui ne sont pas des fonctions linéaires des données, le même résultat ne tient pas nécessairement. Cependant, il serait faux de simplement substituer la moyenne de bootstrap à la valeur de la statistique sur les données: ce n'est pas ainsi que fonctionne le bootstrap. Au lieu de cela, en comparant la moyenne de bootstrap à la statistique des données, nous obtenons des informations sur le biais de la statistique. Cela peut être utilisé pour ajuster la statistique d'origine pour supprimer le biais. Ainsi, l'estimation corrigée du biais devient ainsi une combinaison algébrique de la statistique d'origine et de la moyenne de bootstrap. Pour plus d'informations, recherchez «BCa» (bootstrap à correction de biais et accéléré) et «ABC». Wikipedia fournit quelques références.