Le contexte
C'est un peu similaire à cette question , mais je ne pense pas que ce soit un doublon exact.
Lorsque vous recherchez des instructions sur la façon d'effectuer un test d'hypothèse de bootstrap, il est généralement indiqué qu'il est correct d'utiliser la distribution empirique pour les intervalles de confiance, mais que vous devez démarrer correctement la distribution sous l'hypothèse nulle pour obtenir un p- valeur. À titre d'exemple, voir la réponse acceptée à cette question . Une recherche générale sur Internet semble surtout donner des réponses similaires.
La raison de ne pas utiliser une valeur de p basée sur la distribution empirique est que la plupart du temps nous n'avons pas d'invariance de translation.
Exemple
Permettez-moi de donner un court exemple. Nous avons une pièce et nous voulons faire un test unilatéral pour voir si la fréquence des têtes est supérieure à 0,5
Nous effectuons essais et obtenons têtes. La vraie valeur de p pour ce test serait .
D'un autre côté, si nous bootstrapons nos 14 têtes sur 20, nous échantillonnons efficacement à partir de la distribution binomiale avec et . En déplaçant cette distribution en soustrayant 0,2, nous obtiendrons un résultat à peine significatif lors du test de notre valeur observée de 0,7 par rapport à la distribution empirique obtenue.
Dans ce cas, l'écart est très faible, mais il s'agrandit lorsque le taux de réussite contre lequel nous testons est proche de 1.
Question
Maintenant, permettez-moi d'en venir au vrai point de ma question: le même défaut vaut également pour les intervalles de confiance. En fait, si un intervalle de confiance a le niveau de confiance déclaré alors l'intervalle de confiance ne contenant pas le paramètre sous l'hypothèse nulle équivaut à rejeter l'hypothèse nulle à un niveau de signification de .
Pourquoi les intervalles de confiance basés sur la distribution empirique sont-ils largement acceptés et la valeur de p non?
Y a-t-il une raison plus profonde ou les gens ne sont-ils pas aussi conservateurs avec des intervalles de confiance?
Dans cette réponse, Peter Dalgaard donne une réponse qui semble être en accord avec mon argument. Il dit:
Il n'y a rien de particulièrement faux dans cette ligne de raisonnement, ou du moins pas (bien) pire que le calcul de CI.
D'où vient (beaucoup)? Cela implique que la génération de valeurs p de cette façon est légèrement pire, mais ne précise pas le point.
Dernières pensées
Toujours dans An Introduction to the Bootstrap par Efron et Tibshirani, ils consacrent beaucoup d'espace aux intervalles de confiance mais pas aux valeurs de p à moins qu'elles ne soient générées sous une distribution d'hypothèse nulle appropriée, à l'exception d'une ligne jetable sur l'équivalence générale de intervalles de confiance et valeurs de p dans le chapitre sur les tests de permutation.
Revenons également à la première question que j'ai liée. Je suis d'accord avec la réponse de Michael Chernick, mais encore une fois, il soutient également que les intervalles de confiance et les valeurs de p basés sur la distribution empirique du bootstrap ne sont pas non plus fiables dans certains scénarios. Cela n'explique pas pourquoi vous trouvez beaucoup de gens vous disant que les intervalles sont corrects, mais les valeurs p ne le sont pas.