Bootstrap: l'estimation est en dehors de l'intervalle de confiance


10

J'ai fait un bootstrap avec un modèle mixte (plusieurs variables avec interaction et une variable aléatoire). J'ai obtenu ce résultat (seulement partiel):

> boot_out

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = a001a1, statistic = bootReg, R = 1000)

Bootstrap Statistics :
          original        bias     std. error
t1*   4.887383e+01 -1.677061e+00 4.362948e-01
t2*   3.066825e+01  1.264024e+00 5.328387e-01
t3*   8.105422e+01  2.368599e+00 6.789091e-01
t4*   1.620562e+02  4.908711e+00 1.779522e+00
......

Maintenant, je voulais obtenir les intervalles de confiance pour l'interception:

> boot.ci(boot_out,type=c("norm","basic","perc"), index=1)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = boot_out, type = c("norm", "basic", 
"perc"), index = 1)

Intervals : 
Level      Normal              Basic              Percentile     
95%   (49.70, 51.41 )   (49.70, 51.41 )   (46.34, 48.05 )  
Calculations and Intervals on Original Scale

Le biais corrigé estimé est:

48,873 -1,677
1 47,196

Le problème que j'ai, c'est que l'IC normal et élémentaire sont en dehors de l'estimation (d'origine et corrigée). Je me demande juste comment y faire face.

Mise à jour 1:
Voici une question similaire avec beaucoup de réponses.


2
Juste un commentaire: Efron et Tibshirani (1993) dans le livre classique argumentaient plutôt contre la correction des biais en disant que c'est une pratique "dangereuse" et "problématique" qui pourrait conduire à une augmentation de l'erreur standard.
Tim

@Tim Merci pour votre commentaire. Je vais jeter un œil au livre. Peut-être, une solution consiste à utiliser les estimations et et le bootstrap se * pour calculer les intervalles de confiance. Dans mon cas, le biais n'affecte que légèrement les estimations.
giordano

Réponses:


1

La difficulté que vous rencontrez vient des mathématiques implicites. Un estimateur de centre de localisation, ou un estimateur d'intervalle, peut être considéré comme la minimisation d'une fonction de coût sur une distribution. La moyenne de l'échantillon sur le gaussien minimise la perte quadratique, tandis que la médiane minimise la fonction de perte linéaire absolue sur le gaussien. Même si dans la population, ils sont situés au même point, ils sont découverts en utilisant différentes fonctions de coût.

Nous vous donnons un algorithme et disons "faites ceci", mais avant que l'algorithme ne soit développé, quelqu'un a résolu un problème d'optimisation.

Vous avez appliqué quatre fonctions de coût différentes vous donnant trois intervalles et un estimateur ponctuel. Étant donné que les fonctions de coût sont différentes, elles vous fournissent différents points et intervalles. Il n'y a rien à faire à ce sujet, sauf à unifier manuellement la méthodologie.

Vous devez trouver les articles sous-jacents et regarder le code sous-jacent pour comprendre ceux qui correspondent à quels types de problèmes.

Désolé de le dire, mais vous avez été trahi par le logiciel. Il a fait son travail, et en moyenne cela fonctionne très bien, mais vous avez obtenu l'échantillon où le logiciel ne fonctionnera pas. Ou plutôt, cela fonctionne parfaitement et vous devez réellement remonter dans la littérature pour déterminer ce qu'il fait réellement.


Merci pour Il a fait son travail, et en moyenne cela fonctionne très bien, mais vous avez obtenu l'échantillon où le logiciel ne fonctionnera pas et les autres informations. En effet, l'échantillon est étrange, c'est pourquoi j'ai voulu utiliser Bootsstrap pour calculer CI. De toute évidence, cette méthode ne semble pas aussi simple qu'il y paraît.
giordano
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.