Si la quantité d'intérêt, généralement fonctionnelle d'une distribution, est raisonnablement fluide et que vos données sont idiates, vous êtes généralement dans un territoire assez sûr. Bien entendu, le bootstrap fonctionnera également dans d’autres circonstances.
Ce que cela signifie pour le bootstrap "d'échouer"
En gros, l'objectif du bootstrap est de construire une distribution d'échantillonnage approximative pour la statistique d'intérêt. Il ne s'agit pas d'une estimation réelle du paramètre. Donc, si la statistique d’intérêt (sous certains et de centrage) est et dans la distribution, nous aimerions que notre distribution bootstrap soit: converger vers la distribution de . Si nous ne l'avons pas, nous ne pouvons pas nous fier aux inférences.X^nX^n→X∞X∞
L' exemple canonique du moment où le bootstrap peut échouer, même dans un cadre iid, consiste à essayer d'approximer la distribution d'échantillonnage d'une statistique d'ordre extrême. Vous trouverez ci-dessous une brève discussion.
Statistique d'ordre maximum d'un échantillon aléatoire d'une distributionU[0,θ]
Soit une suite de variables aléatoires uniformes sur i . Soit . La distribution de est
(Notez que par un argument très simple, cela montre également que en probabilité, et même, presque sûrement , si les variables aléatoires sont toutes définies sur le même espace.)X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
Un calcul élémentaire donne
ou, en d'autres termes, converge dans la distribution en une variable aléatoire exponentielle de moyenne .
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
Maintenant, nous formons une estimation bootstrap (naïve) de la distribution de en rééchantillonnant avec remplacement pour obtenir et en utilisant la distribution de conditionnel à .n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
Mais que avec une probabilité de , et que la distribution bootstrap a une masse de points nulle même asymptotiquement malgré le fait que la distribution limite réelle est continue.X⋆(n)=X(n)1−(1−1/n)n→1−e−1
Plus explicitement, bien que la vraie distribution limite soit exponentielle avec mean , la distribution bootstrap limite place une masse de points à zéro de taille indépendamment de la valeur réelle de . En prenant suffisamment grand, nous pouvons rendre la probabilité de la vraie distribution limite arbitraire petite pour tout intervalle fixe , mais le bootstrap signalera ( toujours !) Qu'il existe au moins une probabilité de 0,632 dans cet intervalle! À partir de cela, il devrait être clair que le bootstrap peut se comporter de manière arbitrairement mauvaise dans ce contexte.θ1−e−1≈0.632 θθ[0,ε)
En résumé, le démarrage échoue (misérablement) dans ce cas. Les choses ont tendance à se gâter lorsque l'on traite des paramètres situés au bord de l'espace des paramètres.
Un exemple tiré d'un échantillon de variables aléatoires normales
Il existe d'autres exemples similaires d'échec du bootstrap dans des circonstances étonnamment simples.
Prenons un exemple de où l’espace de paramètre pour est limité à . Le MLE dans ce cas est . Encore une fois, nous utilisons l’estimation de bootstrap . De nouveau, on peut montrer que la distribution de (conditionnée à l'échantillon observé) ne converge pas vers la même distribution limite que .X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
Matrices échangeables
L’un des exemples les plus dramatiques est peut-être celui d’une matrice échangeable. Soit un tableau de variables aléatoires tel que, pour chaque paire de matrices de permutation et , les tableaux et ont la même distribution conjointe. Autrement dit, la permutation des lignes et des colonnes de conserve l’invariant de la distribution. (Vous pouvez penser à un modèle à effets aléatoires à deux voies avec une observation par cellule, par exemple, bien que le modèle soit beaucoup plus général.)Y=(Yij)PQYPYQY
Supposons que nous voulions estimer un intervalle de confiance pour la moyenne ( en raison de l'hypothèse de l' interchangeabilité décrit ci - dessus les moyens de tous les les cellules doivent être les mêmes).μ=E(Yij)=E(Y11)
McCullagh (2000) a examiné deux manières différentes (naïves) d’amorcer un tel tableau. La variance asymptotique de la moyenne d'échantillon n'est pas correcte pour aucun d'entre eux. Il examine également quelques exemples de tableau et de régression linéaire échangeables dans un sens.
Références
Malheureusement, le sujet étant non trivial, aucun d’entre eux n’est particulièrement facile à lire.
P. Bickel et D. Freedman, Une théorie asymptotique pour le bootstrap . Ann. Stat. , vol. 9, non. 6 (1981), 1196-1217.
DWK Andrews, Incohérence du bootstrap lorsqu'un paramètre est à la limite de l'espace des paramètres , Econometrica , vol. 68, non. 2 (2000), 399–405.
P. McCullagh, Rééchantillonnage et matrices échangeables , Bernoulli , vol. 6, non. 2 (2000), 285-301.
EL Lehmann et JP Romano, Test d'hypothèses statistiques , 3e. ed., Springer (2005). [Chapitre 15: Méthodes générales pour les grands échantillons]