Si les paires de prédicteurs de réponse ont été obtenues à partir d'une population par échantillon aléatoire, il est sûr d'utiliser le schéma de rééchantillonnage cas / aléatoire-x / votre premier. Si les prédicteurs ont été contrôlés ou si les valeurs des prédicteurs ont été définies par l'expérimentateur, vous pouvez envisager d'utiliser un schéma de rééchantillonnage résiduel / basé sur le modèle / fixe x / votre seconde.
Comment les deux diffèrent-ils? Une introduction au bootstrap avec des applications en R par Davison et Kounen a une discussion pertinente à cette question (voir p.9). Voir aussi le code R dans cette annexe par John Fox , en particulier les fonctions boot.huber en p.5 pour le schéma random-x et boot.huber.fixed en p.10 pour le schéma fixed-x. Alors que dans les notes de cours de Shalizi les deux schémas sont appliqués à différents ensembles de données / problèmes, l'annexe de Fox illustre le peu de différence que les deux schémas peuvent souvent faire.
Quand peut-on s'attendre à ce que les deux produisent des résultats presque identiques? Une situation se produit lorsque le modèle de régression est correctement spécifié, par exemple, il n'y a pas de non-linéarité non modélisée et les hypothèses de régression habituelles (par exemple, erreurs iid, pas de valeurs aberrantes) sont satisfaites. Voir le chapitre 21 du livre de Fox (dans lequel l'annexe susmentionnée avec le code R appartient indirectement), en particulier la discussion de la page 598 et l'exercice 21.3. intitulé "Rééchantillonnage aléatoire versus fi xe en régression". Pour citer le livre
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
Vous apprendrez également de cette discussion pourquoi le bootstrap fixed-x suppose implicitement que la forme fonctionnelle du modèle est correcte (même si aucune hypothèse n'est formulée sur la forme de la distribution des erreurs).
Voir également la diapositive 12 de cet exposé pour Society Of Actuaries in Ireland de Derek Bain. Il présente également une illustration de ce qui devrait être considéré comme "le même résultat":
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.