Pourquoi ne pas signaler la moyenne d'une distribution bootstrap?


30

Quand on amorce un paramètre pour obtenir l'erreur standard, nous obtenons une distribution du paramètre. Pourquoi n'utilisons-nous pas la moyenne de cette distribution comme résultat ou estimation pour le paramètre que nous essayons d'obtenir? La distribution ne devrait-elle pas se rapprocher de la vraie? Par conséquent, nous obtiendrions une bonne estimation de la valeur "réelle"? Pourtant, nous rapportons le paramètre d'origine que nous avons obtenu de notre échantillon. Pourquoi donc?

Merci

Réponses:


24

Parce que la statistique amorcée est une abstraction supplémentaire loin de votre paramètre de population. Vous avez votre paramètre de population, votre exemple de statistique, et seulement sur la troisième couche, vous avez le bootstrap. La valeur moyenne bootstrapée n'est pas un meilleur estimateur pour votre paramètre de population. C'est simplement une estimation d'une estimation.

Comme la distribution bootstrap contenant toutes les combinaisons bootstrap possibles est centrée autour de la statistique d'échantillon, tout comme la statistique d'échantillon est centrée autour du paramètre de population dans les mêmes conditions. Ce document ici résume ces choses tout à fait bien et il est l' un des plus facile que je pouvais trouver. Pour des preuves plus détaillées, suivez les articles auxquels ils font référence. Des exemples notables sont Efron (1979) et Singh (1981)n

La distribution bootstrap de suit la distribution de θ - θ qui le rend utile dans l'estimation de l'erreur - type d'une estimation de l' échantillon, dans la construction des intervalles de confiance, et dans l'estimation du biais d'un paramètre. Cela n'en fait pas un meilleur estimateur du paramètre de la population. Il offre simplement une alternative parfois meilleure à la distribution paramétrique habituelle pour la distribution de la statistique.θB-θ^θ^-θ


13

Il y a au moins un cas où les gens n'utilisent la moyenne de la distribution bootstrap: ensachage (abréviation de l' agrégation bootstrap ).

L'idée de base est que si votre estimateur est très sensible aux perturbations dans les données (c.-à-d., L'estimateur a une variance élevée et un faible biais), alors vous pouvez faire la moyenne sur de nombreux échantillons de bootstrap pour réduire la quantité d'exemples particuliers surajustés.

La page que j'ai liée à souligne que cela introduit un certain biais dans votre estimation, c'est pourquoi la moyenne de l'échantillon aura souvent plus de sens que la moyenne de vos échantillons de bootstrap. Mais si vous avez quelque chose comme un arbre de décision ou un classificateur de voisin le plus proche qui peut changer radicalement en réponse à de petits changements dans les données, ce biais pourrait ne pas être aussi important que le surajustement.


1
yθ

Je vois normalement l'ensachage utilisé pour réduire la variance de ses estimations pour la réponse (c'est-à-dire sa sensibilité aux fluctuations des données). Les modèles les plus souvent ensachés (par exemple, les arbres) n'ont généralement pas de paramètres bien définis qui seraient facilement comparables entre les échantillons de bootstrap.
David J. Harris

Merci, c'est exactement ce que je pensais aussi. L'ensachage ne semble pas avoir beaucoup de sens pour autre chose que l'estimation d'une réponse, il est donc limité dans ce sens.
Momo

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.