Supposons que l'on effectue le bootstrap dit non paramétrique en tirant échantillons de taille n chacun à partir des n observations originales avec remplacement. Je crois que cette procédure équivaut à estimer la fonction de distribution cumulative par le cdf empirique:
http://en.wikipedia.org/wiki/Empirical_distribution_function
puis obtenir les échantillons de bootstrap en simulant observations à partir des temps B estimés de cdf d' affilée.
Si j'ai raison, alors il faut aborder la question du sur-ajustement, car le cdf empirique a environ N paramètres. Bien sûr, asymptotiquement, il converge vers la population cdf, mais qu'en est-il des échantillons finis? Par exemple, si je vous disais que j'ai 100 observations et que je vais estimer le cdf comme avec deux paramètres, vous ne seriez pas alarmé. Cependant, si le nombre de paramètres devait atteindre 100, cela ne semblerait pas du tout raisonnable.
De même, lorsque l'on utilise une régression linéaire multiple standard, la distribution du terme d'erreur est estimée comme . Si l'on décide de passer au bootstrap des résidus, il doit se rendre compte que maintenant il y a environ n paramètres utilisés juste pour gérer la distribution du terme d'erreur.
Pourriez-vous s'il vous plaît me diriger vers certaines sources qui traitent explicitement de ce problème, ou dites-moi pourquoi ce n'est pas un problème si vous pensez que je me suis trompé.