En utilisant le bootstrap, je calcule les valeurs de p des tests de signification en utilisant deux méthodes:
- rééchantillonnage sous l'hypothèse nulle et comptage des résultats au moins aussi extrêmes que le résultat provenant des données originales
- rééchantillonnage sous l'hypothèse alternative et comptage des résultats au moins aussi éloignés du résultat d'origine que la valeur correspondant à l'hypothèse nulle
Je crois que le 1 er approche est tout à fait correcte car il suit la définition de la valeur ap. Je suis moins sûr de la seconde, mais cela donne généralement des résultats très similaires et me rappelle un test de Wald.
Ai-je raison? Les deux méthodes sont-elles correctes? Sont-ils identiques (pour les grands échantillons)?
Exemples pour les deux méthodes (modifications après les questions de DWin et la réponse d'Erik):
Exemple 1. Construisons un test d'amorçage similaire aux deux exemples de test T. La méthode 1 rééchantillonnera à partir d'un échantillon (obtenu en regroupant les deux originaux). La méthode 2 rééchantillonnera indépendamment des deux échantillons.Exemple 2. Construisons un test bootstrap de corrélation entre x₁… xₐ et y₁… yₐ. La méthode 1 ne supposera aucune corrélation et rééchantillonnera en tenant compte des paires (xₑ, yₔ) où e ≠ ə. La méthode 2 compilera un échantillon d'amorçage des paires originales (x, y).
Exemple 3. Construisons un test de bootstrap pour vérifier si une pièce est juste. La méthode 1 créera des échantillons aléatoires en réglant Pr (tête) = Pr (queue) = ½. La méthode 2 permettra de rééchantillonner l'échantillon de valeurs expérimentales tête / queue et de comparer les proportions à ½.