Lorsque n augmente, la valeur t augmente dans un test d'hypothèse, mais la table t est tout le contraire. Pourquoi?


8

La formule de dans un test d'hypothèse est donnée par: t

t=X¯μσ^/n.

Lorsque augmente, la valeur augmente selon la formule ci-dessus. Mais pourquoi la valeur critique diminue- mesure que (qui est une fonction de ) augmente?ntttdfn

Réponses:


9

Ce sont deux phénomènes différents:

  1. t -statistique

    En maintenant tout le reste constant, si augmente, la valeur doit augmenter comme une simple question d'arithmétique. Considérez la fraction dans le dénominateur, , si devient plus grand, alors deviendra également plus grand (quoique plus lentement), car la racine carrée est une transformation monotone. Puisque la racine carrée de est le dénominateur de cette fraction, à mesure qu'elle grandit, la fraction deviendra plus petite. Cependant, cette fraction est à son tour un dénominateur. En conséquence, à mesure que ce dénominateur devient plus petit, la deuxième fraction grossit. Ainsi, la valeur augmentera à mesure que augmentera . (En supposant, encore une fois, queNtσ^/nnnntnσ^ et restent les mêmes.) (x¯μnull)

    Qu'est-ce que cela signifie conceptuellement? Eh bien, plus nous avons de données / plus la taille de l'échantillon se rapproche de la taille de la population, moins la moyenne de l'échantillon aura tendance à différer de la moyenne de la population en raison d'une erreur d'échantillonnage (cf., la loi des grands nombres ). Avec une petite population finie, c'est facile à voir, mais bien que cela ne soit pas aussi intuitif, il en va de même si la population est infinie. Étant donné que la moyenne de l'échantillon (x¯) ne devrait pas fluctuer très loin de la valeur de référence (nulle), nous pouvons être plus confiants que la distance observée de la moyenne de l'échantillon par rapport au nul est parce que la valeur nulle n'est pas réellement la moyenne de la population à partir de laquelle l'échantillon a été tiré . Plus précisément, il devient de moins en moins probable d'avoir trouvé une moyenne d'échantillon aussi loin ou plus loin de la valeur nulle, si la valeur nulle était vraiment la moyenne de la population dont l'échantillon a été tiré.

  2. t -distribution

    Lorsque vous regardez une table (par exemple, au dos d'un livre de statistiques), ce que vous regardez réellement est un tableau de valeurs critiques . C'est-à-dire, la valeur que la statistique observée doit être supérieure à pour que le test soit «significatif» à cet alpha. (En règle générale, ceux-ci sont répertoriés pour un petit nombre d'alphas possibles: .) Je soupçonne que si vous regardez attentivement ces tableaux, ils sont en fait penser en termes de degrés de liberté associés à la statistique en question. Notez que les degrés de liberté pour la statistique est une fonction de , étantttα={.10, .05, .01, .001}ttndf=n2pour un test deux groupes , ou pour un test un groupe (votre exemple semble être le dernier). Cela a à voir avec le fait que la distribution convergera vers une distribution normale standard lorsque les degrés de liberté approchent de l'infini. tdf=n1tt

    La façon de comprendre cela conceptuellement est de réfléchir à la raison pour laquelle vous devez utiliser la distribution en premier lieu. Vous savez quelle est la valeur moyenne de référence qui vous intéresse et la moyenne de l'échantillon que vous avez observée. Si la population à partir de laquelle les échantillons ont été prélevés était normalement distribuée (ce que les gens supposent souvent implicitement), alors nous savons que la distribution d'échantillonnage de la moyenne sera également distribuée normalement. Alors, pourquoi s'embêter avec la distribution ? La réponse est que vous ne savez pas quel est l'écart-type de la population. (Si nous étions sûrs, nous utiliserions vraiment la distribution normale, c'est-à-dire le test au lieu du test .) Nous utilisons donc notre exemple d'écart-type,ttztσ^ , comme proxy pour la valeur de population inconnue. Cependant, plus nous avons de données, plus nous pouvons être sûrs que est en fait approximativement la bonne valeur. Comme s'approche de la taille de la population (et / ou de l'infini), nous pouvons être sûrs que en fait exactement la bonne valeur. Ainsi, la distribution devient la distribution normale . σ^ nσ^t


C'est une excellente réponse longue. Pourquoi ne pas le déplacer des commentaires pour être la réponse?
Harvey Motulsky

Merci, @HarveyMotulsky. Que voulez-vous dire par la dernière phrase? Il est affiché comme réponse, pas comme commentaire.
gung - Rétablir Monica

Soit quelque chose a changé à la dernière minute, soit je l'ai mal vu. C'est une excellente réponse, et affichée en tant que telle.
Harvey Motulsky

Est-ce à dire que le n que nous avons utilisé dans la formule de la valeur t n'a rien à voir avec la formule utilisée pour générer les valeurs t critiques? Ce que je suis confus, c'est que lorsque le df (qui est une fonction de n) augmente dans la table t, les valeurs t critiques diminuent alors que ce n'est pas le cas dans la valeur t de la formule de la question d'origine. Bien que nous voyions le même n aux deux endroits (tableau et formule), cependant, ils agissent différemment.
leviathan

1
(Soit dit en passant, je crois que ma réponse est adressée à votre question telle que modifiée. Faites-moi savoir s'il y a encore un certain manque de clarté.)
gung - Réinstallez Monica

4

Eh bien, la réponse courte est que c'est ce qui tombe du calcul. La réponse longue serait de faire le calcul . Au lieu de cela, j'essaierai de reformuler l'explication de Gung selon laquelle ce sont deux choses différentes (bien que liées).3

Vous avez collecté un échantillon qui est normalement distribué avec une variance inconnue et vous voulez savoir si sa moyenne est différente d'une valeur spécifiée . Pour ce faire, vous devez calculer une valeur qui représente la «différence» de vos observations avec l'hypothèse que . Ainsi, la formule de la statistique vous avez présentée. La façon la plus intuitive de penser pourquoi cela augmente avec est probablement que vous avez plus de "confiance" que les choses sont différentes lorsque vous avez plus d'échantillons.X1...Xn4μx¯=μt1n

En poursuivant , cette valeur suit une distribution avec degrés de liberté. La façon de penser à cela est que la distribution est légèrement différente en fonction de la taille de votre échantillon. Vous pouvez voir des graphiques de cette distribution avec 2, 3, 5 et 20 df ci-dessous. Vous remarquerez qu'un df plus élevé a plus de masse au centre et moins dans la queue de la distribution (je n'ai aucun raisonnement intuitif pour expliquer pourquoi les distributions se comportent de cette façon, désolé). Le critiquet2n1tdistribution t, df = 2,3,5,20t-value est l'emplacement x où la zone sous la courbe est égale à une valeur quelque peu arbitraire de votre choix (traditionnellement 0,05). Ces valeurs sont marquées sur le graphique comme des points. Ainsi, pour la courbe verte (df = 5), la zone sous la courbe à gauche du point vert gauche = 0,025 et la zone sous la courbe à droite du point vert droit = ​​0,025, pour un total de 0,05.

C'est pourquoi les valeurs critiques diminuent avec l'augmentation des degrés de liberté - à mesure que df augmente, les valeurs critiques doivent se rapprocher de zéro pour garder la même zone sous la courbe. Et comme Gung l'a mentionné, lorsque df va vers , la courbe et les valeurs critiques approcheront celles d'une distribution normale standard.t

Alors maintenant, vous avez votre valeur critique et votre statistique , et pouvez effectuer le test . Si votre statistique est supérieure à la valeur critique, vous pouvez alors déclarer que si était vraiment vrai, alors vous auriez observé votre échantillon moins de 5% (ou quel que soit le pourcentage arbitraire que vous avez choisi pour calculer la valeur critique pour) du temps.tttx¯=μ


1 Pourquoi calculons-nous cette valeur particulière à partir des nombreuses valeurs arbitraires que nous pourrions calculer? Eh bien, c'est ce qui ressort d'un calcul d'un test de rapport de vraisemblance . Si vous connaissiez la variance des échantillons au préalable, la statistique (suivant une distribution normale) mentionnée par gung tomberait à la place de ce calcul, et vous effectueriez un test Encore une fois, c'est ce qui tombe de la math Premier bon résultat de google: http://math.arizona.edu/~jwatkins/ttest.pdf Il s'avère que le test t fonctionne même si cette hypothèse n'est pas remplie, mais c'est une digression3
zz
23
3
4

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.