Il y avait un problème avec la simulation d'origine dans ce post, qui est maintenant, je l'espère, corrigé.
Alors que l'estimation de l'écart-type de l'échantillon a tendance à augmenter avec le numérateur lorsque la moyenne s'écarte de , cela se révèle ne pas avoir un si grand effet sur la puissance à des niveaux de signification "typiques", car dans les échantillons moyens à grands, s ∗ / √μ0 toujours tendance à être assez grand pour être rejeté. Dans les échantillons plus petits, cela peut cependant avoir un certain effet, et à de très faibles niveaux de signification, cela pourrait devenir très important, car cela placera une limite supérieure sur la puissance qui sera inférieure à 1.s∗/n--√
Un deuxième problème, peut-être plus important aux niveaux de signification `` communs '', semble être que le numérateur et le dénominateur de la statistique de test ne sont plus indépendants au (le carré de ˉ x - μ est corrélé avec l'estimation de la variance).X¯- μ
Cela signifie que le test n'a plus de distribution t sous la valeur null. Ce n'est pas une faille fatale, mais cela signifie que vous ne pouvez pas simplement utiliser des tableaux et obtenir le niveau de signification que vous souhaitez (comme nous le verrons dans une minute). Autrement dit, le test devient conservateur et cela a un impact sur la puissance.
Lorsque n devient grand, cette dépendance devient moins problématique (notamment parce que vous pouvez invoquer le CLT pour le numérateur et utiliser le théorème de Slutsky pour dire qu'il y a une distribution normale asymptotique pour la statistique modifiée).
Voici la courbe de puissance pour un échantillon ordinaire à deux échantillons t (courbe violette, test à deux queues) et pour le test utilisant la valeur nulle de dans le calcul de s (points bleus, obtenus par simulation et à l'aide de tables t), comme la moyenne de la population s'éloigne de la valeur hypothétique, pour n = 10 :μ0sn = 10
n = 10
Vous pouvez voir que la courbe de puissance est plus basse (elle empire beaucoup à des échantillons plus petits), mais cela semble être dû en grande partie au fait que la dépendance entre le numérateur et le dénominateur a abaissé le niveau de signification. Si vous ajustez les valeurs critiques de manière appropriée, il y aurait peu entre elles, même à n = 10.
Et voici à nouveau la courbe de puissance, mais maintenant pour n = 30
n = 30
Cela suggère que pour des échantillons non petits, il n'y a pas grand-chose entre eux, tant que vous n'avez pas besoin d'utiliser de très petits niveaux de signification.