Méthodologie Bootstrap. Pourquoi rééchantillonner «avec remplacement» au lieu d'un sous-échantillonnage aléatoire?

La méthode bootstrap a connu une grande diffusion ces dernières années, je l'utilise également beaucoup, notamment parce que le raisonnement derrière est assez intuitif.

Mais c'est une chose que je ne comprends pas. Pourquoi Efron a choisi d'effectuer un rééchantillonnage avec remplacement au lieu de simplement sous-échantillonner en incluant ou en excluant au hasard des observations uniques?

Je pense que le sous-échantillonnage aléatoire a une très bonne qualité, qui représente idéalement la situation de la vie réelle dans laquelle les observations que nous avons dans notre étude sont un sous-ensemble d'une population hypothétique. Je ne vois pas l'avantage d'avoir multiplié les observations lors du rééchantillonnage. Dans un contexte réel, aucune observation n'est semblable à une autre, en particulier pour les situations multivariées complexes.

bootstrap resampling subsampling

— Bakaburg
source

le rééchantillonnage avec rééchantillonnage se fait parce que c'est la bonne chose à faire, compte tenu du modèle. Le modèle derrière le bootstrap consiste à utiliser le maximum de vraisemblance non paramétrique pour estimer la fonction de distribution cumulative, puis à échantillonner des observations indépendantes de la fonction de distribution cumulative estimée. Pensez-y --- algoritmiquement, qui est obtenu par échantillonnage par remplacement de l'échantillon d'origine.

— kjetil b halvorsen

Une façon de comprendre ce choix est de penser que l'échantillon en question est la meilleure représentation que vous avez de la population sous-jacente. Il se peut que vous n'ayez plus la population entière à échantillonner, mais vous avez cette représentation particulière de la population. Un rééchantillonnage vraiment aléatoire à partir de cette représentation de la population signifie que vous devez échantillonner avec remplacement, sinon votre échantillonnage ultérieur dépendra des résultats de votre échantillonnage initial. La présence d'un cas répété dans un échantillon bootstrap particulier représente des membres de la population sous-jacente qui ont des caractéristiques proches de celles de ce cas répété particulier. Comme vous le suggérez, des approches à laisser ou à laisser, comme vous le suggérez, peuvent également être utilisées, mais il s'agit de validation croisée plutôt que d'amorçage.

Je pense que cela met à peu près en d'autres termes le commentaire de @kjetil_b_halvorsen

— EdM
source

Je comprends le point. Faire des observations individuelles dans un échantillon bootstrap indépendant les uns des autres. Dans la littérature, il existe des méthodes basées sur le sous-échantillonnage, voir Politis, Romano, Wolf. L'utilisation d'un sous-ensemble fixe m de n, choisi sans remplacement. Comment évitent-ils l'écueil que vous avez dit auparavant? Dans leur cas, je ne comprends pas pourquoi ils utilisent un sous-échantillon de taille fixe au lieu d'un sous-échantillon aléatoire.

— Bakaburg

Les méthodes de sous-échantillonnage tentent d'accomplir quelque chose de différent du bootstrap. Ces méthodes cherchent à sélectionner des sous-ensembles aléatoires dans l'échantillon de données plutôt que d'essayer d'émuler un nouvel échantillon aléatoire à partir de la population sous-jacente . Ce n'est pas que l'un ou l'autre a tort; ce sont des approches différentes qui ont des forces et des faiblesses particulières.

— EdM

Je devrais donc peut-être poser une nouvelle question concernant la différence entre les deux méthodes dans les statistiques d'inférence. Merci!

— Bakaburg

@Bakaburg voir cette question pour une superbe introduction dans la littérature sur le bootstrap contre la validation croisée (qui est un type particulier de sous-échantillonnage).

— EdM

@Bakaburg La méthode bootstrap simule le tirage indépendant répété d'échantillons aléatoires de taille n (pas un sous-ensemble plus petit que n) d'une population plus grande. Cela signifie qu'il est concevable qu'un échantillon aléatoire contienne un grand nombre de valeurs extrêmement petites ou grandes de la population parentale qui sont souvent sous-représentées dans notre échantillon d'origine. Comme l'a souligné EdM, le rééchantillonnage avec remplacement permet à une seule observation d'échantillon de «représenter» plusieurs observations dans la population qui ont des valeurs similaires - c'est un moyen d'obtenir une approximation en douceur de la distribution de la population.

— RobertF