Bootstrap: la question du sur-ajustement


14

Supposons que l'on effectue le bootstrap dit non paramétrique en tirant échantillons de taille n chacun à partir des n observations originales avec remplacement. Je crois que cette procédure équivaut à estimer la fonction de distribution cumulative par le cdf empirique:Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

puis obtenir les échantillons de bootstrap en simulant observations à partir des temps B estimés de cdf d' affilée.nB

Si j'ai raison, alors il faut aborder la question du sur-ajustement, car le cdf empirique a environ N paramètres. Bien sûr, asymptotiquement, il converge vers la population cdf, mais qu'en est-il des échantillons finis? Par exemple, si je vous disais que j'ai 100 observations et que je vais estimer le cdf comme avec deux paramètres, vous ne seriez pas alarmé. Cependant, si le nombre de paramètres devait atteindre 100, cela ne semblerait pas du tout raisonnable.N(μ,σ2)

De même, lorsque l'on utilise une régression linéaire multiple standard, la distribution du terme d'erreur est estimée comme . Si l'on décide de passer au bootstrap des résidus, il doit se rendre compte que maintenant il y a environ n paramètres utilisés juste pour gérer la distribution du terme d'erreur.N(0,σ2)n

Pourriez-vous s'il vous plaît me diriger vers certaines sources qui traitent explicitement de ce problème, ou dites-moi pourquoi ce n'est pas un problème si vous pensez que je me suis trompé.


Une façon de voir ce bootstrap "non paramétrique" est qu'il convertit l'hypothèse paramétrique de normalité en une "quantité d'intérêt" dans une grande population finie (par exemple la moyenne d'un recensement des enregistrements). En fait, vous pouvez montrer que cette version du bootstrap est basée sur des estimations du «maximum de vraisemblance» du modèle multinomial, avec 1 catégorie pour chaque «type» distinct dans la population.
probabilityislogic

Réponses:


2

je ne suis pas complètement sûr de bien comprendre votre question ... je suppose que vous êtes intéressé par l'ordre de convergence?

parce que le cdf empirique a environ N paramètres. Bien sûr, asymptotiquement, il converge vers la population cdf, mais qu'en est-il des échantillons finis?

Avez-vous lu les bases de la théorie du bootstrap? Le problème est qu'il devient assez sauvage (mathématiquement) assez rapidement.

Quoi qu'il en soit, je recommande de jeter un œil à

van der Vaart "Statistiques asymptotiques" chapitre 23.

Hall "Bootstrap and Edgeworth expansions" (longue mais concise et moins ondulante que van der Vaart je dirais)

pour les bases.

Chernick "Bootstrap Methods" est plus destiné aux utilisateurs qu'aux mathématiciens mais a une section "où le bootstrap échoue".

Le classique Efron / Tibshirani a peu de raisons pour lesquelles le bootstrap fonctionne réellement ...


4

N(μ,σ2)

Intuitivement, l'amorçage à partir d'échantillons finis sous-estime les queues lourdes de la distribution sous-jacente. C'est clair, car les échantillons finis ont une plage finie, même si la plage de leur vraie distribution est infinie ou, pire encore, a des queues lourdes. Ainsi, le comportement de la statistique bootstrap ne sera jamais aussi "sauvage" que la statistique d'origine. Si similaire à éviter le sur-ajustement en raison de trop de paramètres dans la régression (paramétrique), nous pourrions éviter le sur-ajustement en utilisant la distribution normale à quelques paramètres.

Modifier en répondant aux commentaires: N'oubliez pas que vous n'avez pas besoin du bootstrap pour estimer le cdf. Vous utilisez généralement le bootstrap pour obtenir la distribution (au sens le plus large, y compris les quantiles, les moments, tout ce qui est nécessaire) de certaines statistiques. Vous n'avez donc pas nécessairement de problème de sur-ajustement (en termes de "l'estimation due à mes données finies est trop belle par rapport à ce que je devrais voir avec la vraie distribution sauvage"). Mais comme il s'est avéré (par l'article cité et par le commentaire de Frank Harrel ci-dessous), obtenir un tel problème de surajustement est lié à des problèmes d'estimation paramétrique des mêmes statistiques.

Ainsi, comme votre question l'indique, le bootstrap n'est pas une panacée contre les problèmes d'estimation paramétrique. L'espoir que le bootstrap aiderait à résoudre les problèmes de paramètres en contrôlant la distribution entière est faux.


1
On ne sait toujours pas comment le bootstrap parvient à fonctionner étant donné que le nombre de paramètres effectifs impliqués dans le bootstrap est à peu près le même que la taille des échantillons. J'ai une supposition: le but ultime du bootstrap n'est pas d'estimer la distribution entière, mais d'estimer 1-2 statistiques de la distribution. Par conséquent, malgré le fait que le cdf empirique qui est intégré dans le bootstrap est grossièrement surajusté, les statistiques estimées 1-2 finissent bien en quelque sorte. Ai-je bien compris?
James

4
Le nombre de paramètres effectifs n'est pas le même que la taille de l'échantillon. La variance de la fonction de distribution cumulative empirique est à peu près la même que la variance d'un ajustement paramétrique à la distribution lorsque la distribution a 4 paramètres inconnus à estimer. L'une des raisons est que les estimations empiriques du CDF sont forcées d'être en ordre croissant.
Frank Harrell

Bon point. Pourriez-vous fournir une référence?
James

J'aimerais en avoir un. Je l'ai montré par le passé par simulation Monte Carlo.
Frank Harrell

L2F^-FF^(X)-F(X)

0

Une source d'intuition pourrait être de comparer les taux de convergence des CDF paramétriques par rapport aux ECDF, pour les données iid.

n-1/2

n-1/2σμ

Donc, dans un certain sens, la vitesse à laquelle vous devez acquérir plus d'échantillons est la même, que vous estimiez le CDF à l'aide d'un CDF empirique ou que vous estimiez un paramètre directement à l'aide d'un estimateur de type échantillon moyen. Cela pourrait aider à justifier le commentaire de Frank Harrell selon lequel «le nombre de paramètres efficaces n'est pas le même que la taille de l'échantillon».

Bien sûr, ce n'est pas toute l'histoire. Bien que les taux ne diffèrent pas, les constantes le font. Et le bootstrap non paramétrique est bien plus que les ECDF --- vous devez toujours faire les choses avec l'ECDF une fois que vous l'avez estimé.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.