Quelle est la signification des valeurs p et t dans les tests statistiques?


246

Après avoir suivi un cours de statistique et ensuite essayé d'aider d'autres étudiants, j'ai remarqué qu'un sujet qui inspire beaucoup de bousculades au bureau est l'interprétation des résultats de tests d'hypothèses statistiques. Il semble que les étudiants apprennent facilement à effectuer les calculs requis par un test donné, mais s’arrêtent à interpréter les résultats. De nombreux outils informatiques rapportent les résultats de tests en termes de "valeurs p" ou "valeurs t".

Comment expliqueriez-vous les points suivants aux étudiants qui suivent leur premier cours en statistiques:

  • Que signifie une "valeur p" par rapport à l'hypothèse testée? Existe-t-il des cas où l'on devrait rechercher une valeur p élevée ou une valeur p faible?

  • Quelle est la relation entre une valeur p et une valeur t?


11
Une bonne partie de ceci est essentiellement couverte par la première phrase de l'article de Wikipédia sur les valeurs p , qui définit correctement une valeur p. Si cela est compris, beaucoup de choses sont claires.
Glen_b

1
Procurez-vous simplement le livre: Statistiques sans larmes. Cela pourrait sauver votre santé mentale !!

7
@ user48700 Pourriez-vous résumer comment Statistics Without Tears explique cela?
Matt Krause

5
Quelqu'un devrait dessiner un graphique des questions relatives à la valeur p au fil du temps et je parie que nous verrons la saisonnalité et la corrélation avec les calendriers universitaires dans les collèges ou les cours de science des données Coursera
Aksakal

En plus des autres recommandations de livre intéressantes et pertinentes dans les réponses et les commentaires, je voudrais suggérer un autre livre, intitulé "Qu'est-ce qu'une valeur p de toute façon?" .
Aleksandr Blekh

Réponses:


150

Comprendre -valuep

Supposons que vous souhaitiez vérifier l'hypothèse selon laquelle la taille moyenne des étudiants de votre université est de pieds pouces. Vous collectez des hauteurs de étudiants sélectionnés au hasard et calculez la moyenne de l'échantillon (supposons qu'elle se trouve à pieds pouces). En utilisant une formule / routine statistique appropriée, vous calculez la valeur de votre hypothèse et vous dites qu'elle se situe à .7 100 5 9 p 0,065710059p0.06

Afin d’interpréter correctement , nous devons garder à l’esprit plusieurs choses:p=0.06

  1. La première étape du test d’hypothèses classiques consiste à supposer que l’hypothèse considérée est vraie. (Dans notre contexte, nous supposons que la hauteur moyenne réelle est de ft pouces.)757

  2. Imaginez que vous effectuiez le calcul suivant: Calculez la probabilité que la moyenne de l'échantillon soit supérieure à ft pouces en supposant que notre hypothèse est en fait correcte (voir le point 1).959

En d’autres termes, nous voulons savoir

P(Samplemean5ft9inches|Truevalue=5ft7inches).

Le calcul de l'étape 2 correspond à ce qu'on appelle la . Par conséquent, une valeur de signifierait que si nous répétions notre expérience plusieurs fois (chaque fois que nous sélectionnons étudiants au hasard et que nous calculons la moyenne de l'échantillon), nous pouvons nous attendre à voir un échantillon fois sur moyenne supérieure ou égale à ft pouces.p 0,06 100 6 100 5 9pp0.06100610059

Compte tenu de ce qui précède, devrions-nous conserver notre hypothèse selon laquelle notre hypothèse est vraie (voir l'étape 1)? Eh bien, un indique que l'une des deux choses s'est produite:p=0.06

  • (A) Soit notre hypothèse est correcte et un événement extrêmement improbable s'est produit (par exemple, les étudiants sont tous des athlètes étudiants)100

ou

  • (B) Notre hypothèse est incorrecte et l'échantillon que nous avons obtenu n'est pas si inhabituel.

La manière traditionnelle de choisir entre (A) et (B) consiste à choisir une valeur de coupure arbitraire pour . Nous choisissons (A) si et (B) si .p > 0,05 p < 0,05pp>0.05p<0.05


3
Prends ton temps! Je ne penserai pas à choisir une "meilleure réponse" pendant environ une semaine.
Sharpie

1
Maintenant que j'ai eu la chance de revenir et de lire toute la réponse, un gros +1 pour l'exemple de la hauteur d'un élève. Très clair et bien aménagé.
Sharpie

3
Beau travail ... mais nous devons ajouter (C) notre modèle (incorporé dans la formule / routine statistique) est faux.
Andrew Robinson

6
Une valeur t (ou toute autre statistique de test) est principalement une étape intermédiaire. Ce sont des statistiques qui ont été prouvées, sous certaines hypothèses, comme ayant une distribution bien connue. Puisque nous connaissons la distribution de la statistique de test sous null, nous pouvons ensuite utiliser des tables standard (aujourd'hui principalement des logiciels) pour dériver une valeur p.
Gala

1
La valeur p ne découle-t-elle pas du test du chi-deux puis de la table du chi-deux? Je me demande comment la probabilité calculée ci-dessus indique la valeur p elle-même?!
gars de Londres

123

Un dialogue entre un enseignant et un étudiant attentif

Soumis humblement, convaincu que pas assez de crayons ont été utilisés jusqu'à présent dans ce fil. Un bref résumé illustré apparaît à la fin.


Étudiant : Que signifie une valeur de p? Beaucoup de gens semblent s'accorder pour dire que c'est la chance que nous "voyions une moyenne d'échantillon supérieure ou égale à" une statistique ou "la probabilité d'observer ce résultat ... étant donné que l'hypothèse nulle est vraie" ou "la statistique de mon échantillon est tombé sur une distribution "simulée" et même "la probabilité d'observer une statistique de test au moins aussi grande que celle calculée en supposant que l'hypothèse nulle soit vraie" .

Enseignant : Bien compris, toutes ces déclarations sont correctes dans de nombreuses circonstances.

Étudiant : Je ne vois pas comment la plupart d'entre eux sont pertinents. Ne nous avez-vous pas une hypothèse nulle et une hypothèse alternative ? Comment sont-ils impliqués dans ces idées de "plus grand ou égal à" ou de "au moins aussi grand" ou du très populaire "plus extrême"?H AH0HA

Enseignant : Parce que cela peut sembler compliqué en général, cela nous aiderait-il d'explorer un exemple concret?

Étudiant : bien sûr. Mais s'il vous plaît, faites-en un réaliste mais simple si vous le pouvez.

Enseignant : Cette théorie des tests d’hypothèses a historiquement commencé avec la nécessité pour les astronomes d’analyser les erreurs d’observation. Un jour, je parcourais de vieux documents où un scientifique a décrit ses efforts pour réduire l’erreur de mesure dans son appareil. Il avait pris de nombreuses mesures d'une étoile dans une position connue et avait enregistré leurs déplacements devant ou derrière cette position. Pour visualiser ces déplacements, il a dessiné un histogramme qui - une fois lissé - ressemblait à celui-ci.

Figure 1: Histogramme des déplacements

Etudiant : Je me souviens du fonctionnement des histogrammes: l’axe vertical s’appelle "Densité" pour me rappeler que les fréquences relatives des mesures sont représentées par la surface plutôt que par la hauteur.

Enseignant : C'est vrai. Une valeur "inhabituelle" ou "extrême" serait située dans une région avec une zone assez petite. Voici un crayon. Pensez-vous que vous pourriez colorier une région dont la superficie n’est que le dixième du total?

Étudiant : bien sûr; c'est facile. [Couleurs dans la figure.]

Figure 2: La première coloration de l'étudiant.

Enseignant : Très bien! Cela ressemble à environ 10% de la région pour moi. Rappelez-vous cependant que les seules zones de l'histogramme qui importent sont celles situées entre les lignes verticales: elles représentent la probabilité ou la probabilité que le déplacement soit situé entre ces lignes sur l'axe horizontal. Cela signifie que vous deviez colorier jusqu'au fond et que cela représenterait plus de la moitié de la surface, n'est-ce pas?

Étudiant : Oh, je vois. Laissez-moi réessayer. Je vais vouloir colorer là où la courbe est vraiment basse, n'est-ce pas? C'est le plus bas aux deux extrémités. Dois-je colorier un seul domaine ou est-ce que je peux le scinder en plusieurs parties?

Enseignant : Utiliser plusieurs parties est une bonne idée. Où seraient-ils?

Étudiant (montrant): ici et ici. Ce crayon n'étant pas très net, j'ai utilisé un stylo pour vous montrer les lignes que j'utilise.

Figure 3: La deuxième coloration de l'étudiant

Enseignant : Très bien! Laissez-moi vous raconter le reste de l'histoire. Le scientifique a apporté quelques améliorations à son appareil, puis il a pris des mesures supplémentaires. Il a écrit que le déplacement du premier n'était que de , ce qui, à son avis, était un bon signe, mais étant un scientifique avisé, il a procédé à plusieurs mesures afin de vérifier. Malheureusement, ces autres mesures ont été perdues (le manuscrit est interrompu à ce stade) et tout ce que nous avons, c'est ce nombre unique, .0,10.10.1

Étudiant : C'est dommage. Mais cela ne vaut-il pas mieux que le nombre important de déplacements dans votre silhouette?

Enseignant : C'est la question à laquelle j'aimerais que vous répondiez. Pour commencer, que devrions-nous poser comme ?H0

Etudiant : Eh bien, un sceptique se demanderait si les améliorations apportées à l’appareil avaient un effet quelconque. Le fardeau de la preuve incombe au scientifique: il voudrait montrer que le sceptique est faux. Cela me fait penser que l'hypothèse nulle est plutôt mauvaise pour le scientifique: elle indique que toutes les nouvelles mesures, y compris la valeur de nous connaissons, doivent se comporter comme décrit dans le premier histogramme. Ou peut-être même pire que cela: ils pourraient être encore plus dispersés.0.1

Professeur : Allez, tu vas bien.

Etudiant : Et l’alternative est donc que les nouvelles mesures soient moins dispersées, non?

Enseignant : Très bien! Pouvez-vous me dessiner à quoi ressemblerait un histogramme moins étendu? Voici une autre copie du premier histogramme; vous pouvez dessiner dessus comme référence.

Élève (dessin): J'utilise un stylo pour tracer le nouvel histogramme et je colore la zone située en dessous. J'ai fait en sorte que la majeure partie de la courbe soit proche de zéro sur l'axe horizontal et que, par conséquent, la plus grande partie de sa surface soit proche d'une valeur (horizontale) égale à zéro: c'est ce que signifie être moins étalé ou plus précis.

Figure 4: nouvel histogramme de l'étudiant

Enseignant : C'est un bon début. Mais rappelez-vous qu'un histogramme indiquant les chances devrait avoir une surface totale de . La surface totale du premier histogramme est donc de . Quelle est la superficie de votre nouvel histogramme?111

Étudiant : moins de la moitié, je pense. Je vois que c'est un problème, mais je ne sais pas comment le résoudre. Que devrais-je faire?

Enseignant : L'astuce consiste à rendre le nouvel histogramme plus élevé que l'ancien afin que sa surface totale soit égale à . Ici, je vais vous montrer une version générée par ordinateur pour illustrer.1

Figure 5: nouvel histogramme de l'enseignant

Etudiant : Je vois: vous l'avez étiré verticalement pour que sa forme ne change pas vraiment, mais maintenant la zone rouge et la zone grise (y compris la partie sous le rouge) sont identiques.

Enseignant : D'accord. Vous regardez une image de l'hypothèse nulle (en bleu, étalée) et une partie de l'hypothèse alternative (en rouge, avec un étalement moins important).

Étudiant : Qu'entendez-vous par "partie" de l'alternative? N'est-ce pas simplement l' hypothèse alternative?

Enseignant : Les statisticiens et la grammaire ne semblent pas se mélanger. :-) Sérieusement, ce qu'ils entendent par une "hypothèse" est généralement un ensemble de grandes possibilités. Ici, l’alternative (comme vous l’avez si bien dit auparavant) est que les mesures sont "moins étalées" qu’auparavant. Mais combien moins ? Il y a beaucoup de possibilités. Ici, laissez-moi vous en montrer un autre. Je l'ai dessiné avec des tirets jaunes. C'est entre les deux précédents.

Figure 6: Le zéro avec deux éléments de l’alternative

Etudiant : Je vois: vous pouvez avoir différentes quantités de spread mais vous ne savez pas à l'avance à quel point la spread sera réellement. Mais pourquoi avez-vous créé les ombres amusantes sur cette image?

Enseignant : Je voulais souligner où et comment les histogrammes diffèrent. Je les ai ombrés en gris lorsque les histogrammes alternatifs sont inférieurs au zéro et en rouge lorsque les alternatives sont plus élevés .

Étudiant : Pourquoi est-ce important?

Enseignant : Vous rappelez-vous comment vous avez coloré le premier histogramme dans les deux queues? [Regardant dans les journaux.] Ah, le voici. Colorions cette image de la même manière.

Figure 7: Le nul et l’alternative, en couleur.

Etudiant : Je me souviens: ce sont les valeurs extrêmes. J'ai trouvé les endroits où la densité nulle était aussi petite que possible et colorée dans 10% de la superficie.

Enseignant : Parlez-moi des alternatives dans ces zones extrêmes.

Etudiant : C'est difficile à voir, parce que le crayon l'a recouvert, mais il semble qu'il n'y ait presque aucune chance pour qu'une alternative soit dans les zones que j'ai colorées. Leurs histogrammes sont exactement en regard de l’axe des valeurs et il n’ya aucune place sous eux.

Enseignant : Continuons cette pensée. Si je vous disais, de façon hypothétique, qu'une mesure présentait un déplacement de et vous demandait de choisir lequel de ces trois histogrammes était celui qui venait le plus vraisemblablement, lequel choisirait-il?2

Étudiant : Le premier - le bleu. C'est le plus répandu et c'est le seul où semble avoir une chance de se produire.2

Enseignant : Et qu'en est-il de la valeur de dans le manuscrit?0.1

Étudiant : Hmmm… c'est une autre histoire. Les trois histogrammes sont assez haut au-dessus du sol à .0.1

Professeur : OK, assez bien. Mais supposons que je vous ai dit que la valeur se situait autour de , comme entre et . Est-ce que cela vous aide à lire certaines probabilités sur ces graphiques?0 0,20.100.2

Étudiant : Bien sûr, parce que je peux utiliser des zones. Il me suffit d'estimer les zones situées sous chaque courbe entre et . Mais cela semble assez difficile.0,200.2

Enseignant : Tu n'as pas besoin d'aller aussi loin. Pouvez-vous juste dire quelle zone est la plus grande?

Étudiant : Celui qui se trouve sous la courbe la plus haute, bien sûr. Les trois zones ont la même base, donc plus la courbe est haute, plus il y a de surface en dessous et à la base. Cela signifie que l'histogramme le plus haut - celui que j'ai dessiné, avec les tirets rouges - est le plus probable pour un déplacement de . Je pense que je vois où vous voulez en venir, mais je suis un peu inquiet: n'ai-je pas à regarder tous les histogrammes pour toutes les alternatives, pas seulement le ou les deux présentés ici? Comment pourrais-je faire cela?0.1

Enseignant : Vous savez bien tracer des motifs, alors dites-moi: à mesure que l'appareil de mesure est de plus en plus précis, qu'advient-il de son histogramme?

Etudiant : Ça devient plus étroit - oh, et il faut que ça grandisse aussi, donc sa surface totale reste la même. Cela rend assez difficile la comparaison des histogrammes. Les alternatives sont toutes supérieures au droit nul à , c'est évident. Mais pour d’autres valeurs, les alternatives sont parfois plus élevées et parfois plus basses! Par exemple, [pointant vers une valeur proche de ], ici mon histogramme rouge est le plus bas, l'histogramme jaune est le plus haut et l'histogramme nul d'origine est entre eux. Mais sur la droite, le zéro est le plus élevé.3 / quatre03/4

Enseignant : En général, comparer les histogrammes est une tâche compliquée. Pour nous aider à le faire, j'ai demandé à l'ordinateur de créer un autre graphique: il a divisé chacune des hauteurs d'histogramme (ou "densités") alternatives par la hauteur nulle de l'histogramme, créant ainsi des valeurs appelées "rapports de vraisemblance". Par conséquent, une valeur supérieure à signifie que la solution de rechange est plus probable, tandis qu'une valeur inférieure à signifie que la solution de rechange est moins probable. Il a encore trouvé une alternative: il est plus étendu que les deux autres, mais moins que l’appareil original.111

Figure 8: Ratios de vraisemblance

Enseignant (continuant): Pourriez-vous me montrer où les alternatives ont tendance à être plus probables que les nulles?

Étudiant (coloriage): ici au centre, évidemment. Et comme ce ne sont plus des histogrammes, je suppose que nous devrions regarder les hauteurs plutôt que les zones, alors je ne fais que marquer une plage de valeurs sur l’axe horizontal. Mais comment puis-je savoir dans quelle proportion colorer le milieu? Où puis-je arrêter de colorier?

Figure 9: Diagrammes de probabilité vraisemblable

Enseignant : Il n'y a pas de règle ferme. Tout dépend de la manière dont nous prévoyons d'utiliser nos conclusions et de la férocité des sceptiques. Mais asseyez - vous et pensez à ce que vous avez accompli: vous vous rendez compte maintenant que les résultats avec les grands rapports de vraisemblance sont la preuve de l'alternative et les résultats avec de petits rapports de vraisemblance sont des preuves contre l'autre. Ce que je vous demanderai de faire, c’est de colorier une zone qui, dans la mesure du possible, a une faible chance de se produire sous l’hypothèse nulle et une chance relativement grande de se produire sous les alternatives. En revenant au premier diagramme que vous avez coloré, il y a longtemps, au début de notre conversation, vous avez coloré les deux queues du zéro parce qu'elles étaient "extrêmes". Est-ce qu'ils feraient toujours un bon travail?

Étudiant : Je ne pense pas. Même s'ils étaient assez extrêmes et rares dans l'hypothèse nulle, ils sont pratiquement impossibles pour toutes les alternatives. Si ma nouvelle mesure était, disons , je pense que je me rangerais avec le sceptique et nierais toute amélioration, même si la était un résultat inhabituel dans tous les cas. Je veux changer cette coloration. Ici, laissez-moi un autre crayon.3.03.03.0

Figure 10: Balisage amélioré

Enseignant : Qu'est-ce que cela représente?

Étudiant : Nous avons commencé par vous demander de ne dessiner que 10% de la surface sous l'histogramme d'origine - celui décrivant le zéro. Alors maintenant, j'ai attiré 10% de la zone où les alternatives semblent plus susceptibles de se produire. Je pense que quand une nouvelle mesure est dans ce domaine, cela nous dit que nous devons croire en la solution de rechange.

Enseignant : Et comment le sceptique devrait-il réagir à cela?

Étudiant : Un sceptique n'a jamais à admettre qu'il a tort, n'est-ce pas? Mais je pense que sa foi devrait être un peu secouée. Après tout, nous nous sommes arrangés pour que, bien qu’une mesure puisse être située dans la zone que je viens de dessiner, elle n’a que 10% de chances d’être présente lorsque la valeur nulle est vraie. Et il a plus de chance d’être présent lorsque l’alternative est vraie. Je ne peux tout simplement pas vous dire à quel point cette chance est grande, car cela dépend de la mesure dans laquelle le scientifique a amélioré l'appareil. Je sais juste que c'est plus grand. La preuve serait donc contre le sceptique.

Professeur : D'accord. Pourriez-vous résumer votre compréhension afin que nous sachions parfaitement ce que vous avez appris?

Etudiant : J'ai appris que pour comparer des hypothèses alternatives à des hypothèses nulles, nous devons comparer leurs histogrammes. Nous divisons les densités des alternatives par la densité du zéro: c'est ce que vous appelez le "ratio de vraisemblance". Pour faire un bon test, je devrais choisir un petit nombre, 10% ou tout ce qui pourrait suffire à ébranler un sceptique. Ensuite, je devrais trouver des valeurs où le rapport de probabilité est aussi élevé que possible et les colorer jusqu'à ce que 10% (ou peu importe) aient été colorés.

Enseignant : Et comment utiliseriez-vous cette coloration?

Etudiant : Comme tu me l'as rappelé plus tôt, la coloration doit être entre des lignes verticales. Les valeurs (sur l'axe horizontal) situées sous la coloration sont des preuves à l'appui de l'hypothèse nulle. Autres valeurs - eh bien, il est difficile de dire ce qu’elles pourraient signifier sans examiner de manière plus détaillée tous les histogrammes impliqués.

Enseignant : Pour en revenir à la valeur de dans le manuscrit, que concluriez-vous?0.1

Etudiant : C'est dans la zone que j'ai colorée en dernier, alors je pense que le scientifique avait probablement raison et que l'appareil était vraiment amélioré.

Enseignant : Une dernière chose. Votre conclusion était basée sur le critère de 10%, ou "taille" du test. Beaucoup de gens aiment utiliser 5% à la place. Certains préfèrent 1%. Que pourriez-vous leur dire?

Étudiant : Je ne pouvais pas faire tous ces tests à la fois! Eh bien, je pourrais peut-être en quelque sorte. Je peux voir que, quelle que soit la taille du test, je devrais commencer à colorier à partir de , ce qui est en ce sens la valeur "la plus extrême", et travailler ensuite dans les deux sens. Si je m'arrêtais bien à % - la valeur effectivement observée -, je pense que j'aurais coloré dans une zone située entre et , disons . Les gens à 5% et à 1% pouvaient dire tout de suite que je colorais trop: s'ils voulaient colorer à peine 5% ou 1%, ils le pouvaient, mais ils ne sortiraient pas aussi loin que %.0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Ils n'arriveraient pas à la même conclusion que moi: ils diraient qu'il n'y a pas assez de preuves qu'un changement a réellement eu lieu.

Professeur : Vous venez de me dire ce que toutes ces citations au début veulent vraiment dire. Il devrait être évident d'après cet exemple qu'ils ne peuvent pas avoir l'intention "plus extrême", "supérieur ou égal" ou "au moins aussi grand" en ce sens qu'ils ont une valeur plus grande ou même une valeur où la densité nulle est petite. Ils signifient vraiment ces choses au sens des ratios de vraisemblance élevés que vous avez décrits. À propos, le nombre autour de que vous avez calculé s'appelle la "valeur p". Vous ne pouvez le comprendre correctement que de la manière que vous avez décrite: en ce qui concerne l’analyse des hauteurs relatives des histogrammes - les rapports de vraisemblance.0.08

Étudiant : merci. Je ne suis pas sûr de bien comprendre tout cela, mais vous m'avez donné beaucoup de matière à réflexion.

Enseignant : Si vous voulez aller plus loin, jetez un coup d'œil au lemme de Neyman-Pearson . Vous êtes probablement prêt à comprendre maintenant.


Synopsis

De nombreux tests basés sur une seule statistique, comme celle de la boîte de dialogue, l'appelleront " " ou " ". Ce sont des façons d'indiquer à quoi ressemble l'histogramme nul, mais ce ne sont que des indices: ce que nous appelons ce nombre importe peu. La construction résumée par l'étudiant, illustrée ici, montre comment elle est liée à la valeur p. La valeur p est la plus petite taille de test qui permettrait à une observation de de rejeter l'hypothèse nulle.t t = 0,1ztt=0.1

Figure 11: Valeur de p en tant qu'aire.

Sur cette figure, qui est agrandie pour montrer les détails, l’hypothèse nulle est tracée en bleu continu et deux alternatives typiques sont tracées avec des lignes en pointillés. La région où ces alternatives ont tendance à être beaucoup plus grandes que le zéro est ombrée. L'ombrage commence là où les probabilités relatives des alternatives sont les plus grandes (à ). L'ombrage cesse lorsque l'observation est atteinte. La valeur p est l'aire de la région ombrée sous l'histogramme nul: c'est la chance, en supposant que la valeur nulle soit vraie, d'observer un résultat dont les rapports de vraisemblance tendent à être importants quelle que soit l'alternative vraie. En particulier, cette construction dépend intimement de l'hypothèse alternative. Il ne peut être réalisé sans spécifier les alternatives possibles.t = 0,10t=0.1


4
Cela a très bien traité mon commentaire sur une autre réponse, qu'aucune des réponses précédentes à cette question n'avait abordé, en général, l'aspect "ou plus extrême" communément entendu d'une valeur de p . (Bien que la réponse "test de thé" inclue un bon exemple spécifique.) J'admire particulièrement la façon dont cet exemple a été délibérément construit pour souligner que "plus extrême" peut signifier tout le contraire de "plus grand" ou "plus loin de zéro".
Silverfish

4
J'aimerais que les enseignants et les manuels n'utilisent pas l'expression "ou plus extrême", vraiment. Deux variantes que j'ai entendues pourraient être paraphrasées comme "plus favorable envers " ou "plus persuasif de ". Dans ce cas, des valeurs proches de zéro seraient effectivement plus convaincantes que le télescope est devenu plus fiable, mais il faut quelques acrobaties linguistiques (argumenté de manière plausible, mais potentiellement déroutant) pour les décrire comme "plus extrêmes". H 1H1H1
Silverfish

3
Particulièrement perspicace comme toujours, merci d’avoir pris le temps d’écrire ces réponses incroyablement utiles. Je me demande vraiment pourquoi les manuels ne sont jamais écrits de manière à offrir autant de clarté et d’intuition.
Jeremy Radcliff

Je pense qu'un lien vers une définition de la probabilité par rapport à cet exemple pourrait être bénéfique
baxx le

1
Il est dangereux d’utiliser le sarcasme dans un commentaire, @baxx, car il n’ya pas assez d’espace qui nous a permis de le faire avec politesse et élégance. Par conséquent, ce n'est généralement pas une bonne idée de supposer qu'un commentaire est sarcastique, à moins que cela ne vous l'indique explicitement. Supposons simplement que les commentaires ont pour but de vous aider. Si vous suiviez simplement le tout premier résultat dans la recherche que j'ai fournie, je pense que vos questions obtiendraient une réponse.
whuber

44

Avant de toucher à ce sujet, je veille toujours à ce que les étudiants soient heureux de pouvoir se déplacer entre les pourcentages, les décimales, les probabilités et les fractions. S'ils ne sont pas complètement satisfaits de cela, ils peuvent se perdre rapidement.

J'aime expliquer pour la première fois les tests d'hypothèses (et donc les valeurs p et les statistiques de tests) via l'expérience classique du thé de Fisher. J'ai plusieurs raisons pour cela:

(i) Je pense que le fait de mener une expérience et de définir les termes au fur et à mesure est plus logique que de simplement définir tous ces termes. (ii) Vous n'avez pas besoin de vous fier explicitement aux distributions de probabilité, aux zones sous la courbe, etc. pour dépasser les points clés du test d'hypothèse. (iii) Il explique cette notion ridicule de "aussi ou plus extrême que celles observées" d'une manière assez raisonnable. (iv) Je trouve que les étudiants aiment comprendre l'histoire, les origines et l'histoire de ce qu'ils étudient pour la rendre plus réelle. que certaines théories abstraites. (v) Peu importe la discipline ou la matière des étudiants, ils peuvent se référer à l'exemple du thé (NB: Certains étudiants internationaux ont des difficultés avec cette institution particulièrement britannique du thé au lait.)

[Note: J'ai trouvé cette idée dans le merveilleux article de Dennis Lindley "L'analyse des données expérimentales: l'appréciation du thé et du vin" dans lequel il montre pourquoi les méthodes bayésiennes sont supérieures aux méthodes classiques.]

En arrière-plan, Muriel Bristol rend visite à Fisher un après-midi dans les années 1920 à la station expérimentale de Rothamsted pour une tasse de thé. Lorsque Fisher a mis le dernier lait en place, elle s'est plainte qu'elle puisse également dire si le lait était versé en premier (ou en dernier) et qu'elle préférait le premier. Pour mettre cela à l'épreuve, il a conçu son expérience thé classique où Muriel se voit présenter une paire de tasses à thé et doit identifier celle à laquelle le lait a été ajouté en premier. Ceci est répété avec six paires de tasses à thé. Elle a le choix entre Right (R) ou Wrong (W) et ses résultats sont les suivants: RRRRRW.

6

(a) l'hypothèse nulle (Muriel suppose) est vraie et un événement peu probable s'est produit ou,

(b) l'hypothèse nulle est fausse et Muriel a des pouvoirs discriminatoires.

La valeur p (ou valeur de probabilité) est la probabilité d'observer ce résultat (RRRRRW) étant donné que l'hypothèse nulle est vraie. Il s'agit de la faible probabilité mentionnée en (a) ci-dessus. Dans ce cas, c'est 0.016. Étant donné que les événements à faible probabilité ne se produisent que rarement (par définition), la situation (b) pourrait être une explication plus préférable de ce qui s’est passé que la situation (a). Lorsque nous rejetons l'hypothèse nulle, nous acceptons en réalité l'hypothèse opposée que nous appelons hypothèse alternative. Dans cet exemple, Muriel a des pouvoirs discriminatoires est l'hypothèse alternative.

Une considération importante est ce que nous appelons une "petite" probabilité. Quelle est la limite à laquelle nous sommes prêts à dire qu'un événement est peu probable? L'indice de référence standard est 5% (0,05) et est appelé le niveau de signification. Lorsque la valeur p est inférieure au niveau de signification, nous rejetons l'hypothèse nulle comme étant fausse et acceptons notre hypothèse alternative. Il est courant de dire qu'un résultat est "significatif" lorsque la valeur p est inférieure au niveau de signification, c'est-à-dire lorsque la probabilité que ce que nous avons observé se produise étant donné que l'hypothèse nulle est vraie est inférieure à notre seuil de coupure. Il est important de préciser que l’utilisation de 5% est totalement subjective (de même que l’utilisation des autres niveaux de signification communs de 1% et 10%).

Fisher réalisa que cela ne fonctionnait pas; chaque résultat possible avec une mauvaise paire évoquait également des pouvoirs discriminatoires. La probabilité pertinente pour la situation (a), ci-dessus, est donc 6 (0,5) ^ 6 = 0,094 (ou 6/64), ce qui n’est plus significative au seuil de signification de 5%. Pour remédier à cette situation, Fisher a fait valoir que si 1 erreur sur 6 est considérée comme une preuve de pouvoir discriminant, il en va de même, c’est-à-dire les résultats qui indiquent plus fortement des pouvoirs discriminatoires que celui observé doivent être inclus dans le calcul de la valeur p. Cela a entraîné la modification suivante du raisonnement, soit:

(a) l'hypothèse nulle (Muriel suppose) est vraie et la probabilité d'événements aussi extrêmes que celle observée ou plus extrêmes que ceux observés est faible, ou

(b) l'hypothèse nulle est fausse et Muriel a des pouvoirs discriminatoires.

Revenons à notre expérience sur le thé et nous trouvons que la valeur p sous cette configuration est 7 (0,5) ^ 6 = 0,109, ce qui n’est toujours pas significatif au seuil de 5%.

Je demande ensuite aux élèves de travailler avec d'autres exemples, tels que le tirage au sort, pour déterminer si une pièce est juste ou non. Cela nous apprend les concepts de l'hypothèse nulle / alternative, des valeurs p et des niveaux de signification. Nous passons ensuite au cas d'une variable continue et introduisons la notion de statistique test. Comme nous avons déjà traité de la distribution normale, de la distribution normale standard et de la transformation z en profondeur, il s’agit simplement de regrouper plusieurs concepts.

En plus du calcul des statistiques de test, des valeurs p et de la prise de décision (significatif / non significatif), je demande aux étudiants de travailler dans des documents publiés en complétant le jeu des blancs manquants.


2
Je sais que je ressuscite quelque peu un très vieux fil, mais ça y est ... J'ai vraiment apprécié votre réponse, mais la partie t-value me manque :( Pourriez-vous s'il vous plaît utiliser vos exemples donnés pour en parler? Personne n'a répondu à propos de la partie t-test
Sosi

@sosi C'est probablement parce que les valeurs p sont beaucoup plus générales que les valeurs t. C'est comme poser une question sur les voitures, puis sur les freins d'une Ford Fiesta.
conjectures

2
ppp

27

Aucune explication verbale ni aucun calcul ne m’ont réellement aidé à comprendre au plus profond de l’intestin quelles étaient les valeurs p, mais cela m’a vraiment mis au premier plan une fois que j’ai suivi un cours impliquant la simulation. Cela m'a donné la possibilité de voir les données générées par l'hypothèse nulle et de tracer les moyens / etc. des échantillons simulés, puis regardez où la statistique de mon échantillon est tombé sur cette distribution.

Je pense que l’avantage principal de ce logiciel est de permettre aux étudiants d’oublier un instant les distributions des statistiques de test et de calcul et de se concentrer sur les concepts abordés. Certes, il fallait que j'apprends comment simuler ce genre de choses, ce qui entraînera des problèmes pour un ensemble tout à fait différent des étudiants. Mais cela a fonctionné pour moi, et j’ai utilisé la simulation maintes fois pour expliquer avec succès les statistiques à d’autres (par exemple, "Voici à quoi ressemblent vos données; c’est à quoi ressemble une distribution de Poisson superposée. Etes-vous sûr de vouloir faire une régression de Poisson? ").

Cela ne répond pas exactement aux questions que vous avez posées, mais pour moi, du moins, cela les a rendues triviales.


10
Je suis tout à fait d’accord sur l’utilisation de la simulation pour expliquer cela. Mais juste une petite note sur l’exemple à la fin: j’aperçois que les gens (pas seulement les étudiants) ont du mal à distinguer, pour une hypothèse de répartition particulière, comme le poisson, de la distribution marginale de poisson et de la distribution conditionnelle de poisson. Etant donné que seul le dernier facteur est important pour un modèle de régression, un ensemble de valeurs de variables dépendantes qui ne sont pas poisson ne doit pas nécessairement être une source d'inquiétude.
conjugateprior

1
Je dois avouer que je ne le savais pas. J'ai vraiment apprécié vos commentaires sur ce site au cours des derniers jours de votre adhésion - j'espère que vous resterez fidèles à la réalité.
Matt Parker

@MattParker Connaissez-vous des ressources d'apprentissage axées sur l'utilisation de la simulation pour développer la compréhension? Ou s'agit-il simplement de rassembler des scripts python / R et d'exécuter de nombreux tests?
Baxx

1
@baxx Le [site Web Seeing Theory de Daniel Kunin] (students.brown.edu/seeing-theory/) propose des outils intéressants, mais il est encore en construction. Sinon, oui, je viens d'expérimenter en grande partie les outils de simulation intégrés de R - je les utilise pour me prouver le fonctionnement d'une méthode ou pour voir ce qui se passerait si un prédicteur était remplacé par une variable aléatoire, etc. Désolé, J'aurais aimé connaître de meilleures ressources pour cela!
Matt Parker

@MattParker cool merci. Ouais - un peu de poule et d'oeuf dans cela, pour construire les expériences que vous (je suppose?) Devez au moins en avoir assez pour les écrire. Pas de soucis cependant ..... Vous venez de vérifier le site que vous avez lié, c'est gentil, merci
baxx

16

Une bonne définition de la valeur p est "la probabilité d'observer une statistique de test au moins aussi grande que celle calculée en supposant que l'hypothèse nulle soit vraie".

Le problème avec cela est que cela nécessite une compréhension de la "statistique de test" et de "l'hypothèse nulle". Mais c'est facile à faire comprendre. Si l'hypothèse nulle est vraie, quelque chose comme "paramètre de la population A est égal à paramètre de la population B", et que vous calculez des statistiques pour estimer ces paramètres, quelle est la probabilité de voir une statistique de test indiquant "ils sont ceci différent"?

Par exemple, si la pièce est juste, quelle est la probabilité que je voie 60 têtes sur 100 lancers? Cela teste l'hypothèse nulle, "la pièce est juste" ou "p = .5" où p est la probabilité des têtes.

La statistique de test dans ce cas serait le nombre de têtes.

Maintenant, je suppose que ce que vous appelez "valeur t" est une "statistique de test" générique, pas une valeur d'une "distribution t". Ce n'est pas la même chose, et le terme "valeur t" n'est pas (nécessairement) largement utilisé et pourrait prêter à confusion.

Ce que vous appelez "valeur t" est probablement ce que j'appelle "statistique de test". Afin de calculer une valeur p (rappelez-vous, il ne s'agit que d'une probabilité), vous avez besoin d'une distribution et d'une valeur à connecter à cette distribution qui renverra une probabilité. Une fois que vous faites cela, la probabilité que vous reveniez soit votre p-valeur. Vous pouvez voir qu'elles sont liées car sous la même distribution, différentes statistiques de test vont renvoyer différentes valeurs de p. Des statistiques de test plus extrêmes renverront des valeurs p plus basses, ce qui indiquera plus clairement que l'hypothèse nulle est fausse.

J'ai ignoré la question des valeurs p unilatérales et bilatérales ici.


11

Imaginez que vous avez un sac contenant 900 billes noires et 100 billes blanches, c'est-à-dire que 10% des billes sont blanches. Maintenant, imaginez que vous sortiez une bille, la regardiez et enregistriez sa couleur, en retiriez une autre, enregistriez sa couleur, etc. et faites-la 100 fois. À la fin de ce processus, vous aurez un nombre pour les billes blanches qui, idéalement, s’attendrait à 10, c’est-à-dire 10% sur 100, mais peut en réalité être de 8, 13 ou peu importe simplement par hasard. Si vous répétez cette expérience de retrait de 100 billes plusieurs fois, puis que vous tracez un histogramme du nombre de billes blanches dessinées par expérience, vous obtiendrez une courbe de Bell centrée autour de 10.

Cela représente votre hypothèse de 10%: avec tout sac contenant 1000 billes dont 10% de billes blanches, si vous en sortez 100 au hasard, vous trouverez 10 billes blanches dans la sélection, à raison de 4 ou plus. La valeur p est tout au sujet de cette "donner ou prendre 4 ou plus." Supposons qu'en vous référant à la courbe de Bell créée précédemment, vous pouvez déterminer que moins de 5% du temps vous obtiendrez 5 billes blanches ou moins et qu'un autre <5% du temps représente au moins 15 billes blanches, c.-à-d. temps, votre sélection de 100 billes contiendra entre 6 et 14 billes blanches incluses.

En supposant que quelqu'un dépose un sac de 1000 billes contenant un nombre inconnu de billes blanches, nous avons les outils pour répondre à ces questions.

i) Y a-t-il moins de 100 billes blanches?

ii) Y a-t-il plus de 100 billes blanches?

iii) Le sac contient-il 100 billes blanches?

Sortez simplement 100 billes du sac et comptez combien de ces échantillons sont blancs.

a) S'il y a 6 à 14 blancs dans l'échantillon, vous ne pouvez pas rejeter l'hypothèse qu'il y a 100 billes blanches dans le sac et que les valeurs p correspondantes de 6 à 14 seront> 0,05.

b) S'il y a 5 blancs ou moins dans l'échantillon, vous pouvez rejeter l'hypothèse qu'il y a 100 billes blanches dans le sac et que les valeurs p correspondantes pour 5 ou moins seront <0,05. Vous vous attendez à ce que le sac contienne <10% de billes blanches.

c) S'il y a 15 blancs ou plus dans l'échantillon, vous pouvez rejeter l'hypothèse selon laquelle il y a 100 billes blanches dans le sac et que les valeurs p correspondantes pour 15 ou plus seront <0,05. Vous vous attendez à ce que le sac contienne plus de 10% de billes blanches.

En réponse au commentaire de Baltimark

Compte tenu de l'exemple ci-dessus, il existe environ: -

4,8% de chances d'obtenir 5 boules blanches ou moins

1,85% de chance sur 4 ou moins

0,55% de chance sur 3 ou moins

0,1% de chance sur 2 ou moins

6.25% de chance sur 15 ou plus

3,25% de chance sur 16 ou plus

1,5% de chance sur 17 ou plus

0,65% de chance sur 18 ou plus

0,25% de chance sur 19 ou plus

0,1% de chance sur 20 ou plus

0,05% de chance sur 21 ou plus

Ces nombres ont été estimés à partir d'une distribution empirique générée par une simple routine de Monte Carlo exécutée dans R et les quantiles résultants de la distribution d'échantillonnage.

Pour répondre à la question initiale, supposons que vous tiriez 5 boules blanches, il n'y a qu'environ 4,8% de chances que si le sac en marbre contient réellement 10% de boules blanches, vous ne tirez que 5 blancs sur un échantillon de 100. Cela équivaut à une valeur p <0,05. Vous devez maintenant choisir entre

i) Il y a vraiment 10% de balles blanches dans le sac et je viens d'être "malchanceux" d'en tirer si peu

ou

ii) J'ai dessiné tellement peu de boules blanches qu'il ne peut pas y avoir vraiment 10% de boules blanches (rejetez l'hypothèse de 10% de boules blanches)


Tout d’abord, c’est juste un grand exemple qui n’explique pas vraiment le concept de p-value et de test-statistique. Deuxièmement, vous prétendez simplement que si vous obtenez moins de 5 ou plus de 15 billes blanches, vous rejetez l'hypothèse nulle. Quelle est votre distribution à partir de laquelle vous calculez ces probabilités? Ceci peut être approché avec un dist normal. centré à 10, avec un écart type de 3. Vos critères de rejet ne sont pas assez stricts.
Baltimark

Je conviens que ce n’est qu’un exemple, et j’ai certes choisi les chiffres 5 et 15 dans les airs à des fins d’illustration. Quand j’aurai le temps, je posterai une deuxième réponse qui, j’espère, sera plus complète.
babelproofreader

10

La valeur p ne vous dit pas quelle est la probabilité que l'hypothèse nulle soit vraie. Dans le cadre de test de signification conventionnel (Fisher), nous calculons d’abord la probabilité d’observer les données en supposant que l’hypothèse nulle est vraie, c’est la valeur p. Il semble intuitivement raisonnable de supposer que l'hypothèse nulle est probablement fausse si les données sont suffisamment improbables pour être observées sous l'hypothèse nulle. C'est tout à fait raisonnable. Les statisticiens utilisent habituellement un seuil et "rejettent l'hypothèse nulle au niveau de signification de 95%" si (1 - p)> 0,95; Cependant, il s'agit simplement d'une convention qui s'est révélée raisonnable dans la pratique - cela ne signifie pas qu'il y a moins de 5% de probabilité que l'hypothèse nulle soit fausse (et donc une probabilité de 95% que l'hypothèse alternative soit vraie).

Imagerie d'une fonction f () qui mappe la valeur p sur la probabilité que l'hypothèse alternative soit vraie. Il serait raisonnable d'affirmer que cette fonction est strictement décroissante (de sorte que plus les observations sous l'hypothèse nulle sont probables, moins l'hypothèse alternative est vraie) et qu'elle donne des valeurs comprises entre 0 et 1 (car elle donne une estimation). de probabilité). Cependant, c’est tout ce que nous savons sur f (). Par conséquent, s’il existe une relation entre p et la probabilité que l’hypothèse alternative soit vraie, elle n’est pas calibrée. Cela signifie que nous ne pouvons pas utiliser la valeur p pour faire des déclarations quantitatives sur la plausibilité des hypothèses nulll et alternatve.

Mise en garde: Il n'est pas vraiment dans le cadre fréquentiste de parler de la probabilité qu'une hypothèse soit vraie, car ce n'est pas une variable aléatoire - c'est vrai ou ce n'est pas le cas. Donc, là où j’ai parlé de la probabilité de vérité d’une hypothèse, j’ai implicitement opté pour une interprétation bayésienne. Il est incorrect de mélanger bayésien et fréquentiste. Cependant, il est toujours tentant de le faire, car ce que nous voulons réellement est une indication quantitative de la plausibilité / probabilité relative des hypothèses. Mais ce n'est pas ce que la valeur p fournit.


7

En statistique, on ne peut jamais dire que quelque chose est absolument certain, aussi les statisticiens utilisent-ils une autre approche pour déterminer si une hypothèse est vraie ou non. Ils tentent de rejeter toutes les autres hypothèses non supportées par les données.

Pour ce faire, les tests statistiques ont une hypothèse nulle et une hypothèse alternative. La valeur p rapportée par un test statistique est la probabilité du résultat étant donné que l'hypothèse nulle était correcte. C'est pourquoi nous voulons de petites valeurs p. Plus elles sont petites, moins le résultat serait probable si l'hypothèse nulle était correcte. Si la valeur p est suffisamment petite (c'est-à-dire qu'il est très improbable que le résultat se soit produit si l'hypothèse nulle était correcte), l'hypothèse nulle est rejetée.

De cette manière, des hypothèses nulles peuvent être formulées et ensuite rejetées. Si l'hypothèse nulle est rejetée, vous acceptez l'hypothèse alternative comme la meilleure explication. Rappelez-vous cependant que l’hypothèse alternative n’est jamais certaine, puisque l’hypothèse nulle aurait pu, par hasard, générer les résultats.


Pr(Tt|H0)Pr(T=t|H0)

5

Je suis un peu timide pour relancer le vieux sujet, mais j'ai sauté d' ici , alors je poste ceci en réponse à la question dans le lien.

La p-valeur est un terme concret, il ne devrait pas y avoir de malentendu. Mais, il est en quelque sorte mystique que les traductions familières de la définition de p-valeur conduisent à de nombreuses interprétations erronées. Je pense que la racine du problème réside dans l'utilisation des expressions "au moins aussi défavorable que l'hypothèse nulle" ou "au moins aussi extrême que celle de votre échantillon de données" etc.

Par exemple, Wikipedia dit

... la valeur p est la probabilité d'obtenir les résultats d'échantillonnage observés (ou un résultat plus extrême) lorsque l'hypothèse nulle est réellement vraie.

p

Je pense qu'il vaut mieux laisser le "résultat plus extrême" à quelque chose comme un acte de langage indirect . Alors, ma prise est

La valeur p est la probabilité de voir ce que vous voyez dans un "monde imaginaire" où l'hypothèse nulle est vraie.

xμ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

t0=nX¯μ0s

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

|t0|t0t(9)

pvalue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Comme la valeur p est petite, il est très improbable que l’échantillon xait été tiré dans le monde hypothétique. Par conséquent, nous concluons qu’il est très peu probable que le monde supposé soit en réalité le monde réel.


2
+1, mais lorsque vous écrivez «probabilité de voir ce que vous voyez» et omettez la partie «plus extrême», cette phrase devient à proprement parler fausse (et potentiellement trompeuse, même si elle est peut-être moins déroutante). Ce n'est pas la probabilité de voir ce que vous voyez (c'est généralement zéro). C'est la probabilité de voir ce que vous voyez "ou plus extrême". Même si cela peut semer la confusion chez beaucoup, cela reste crucial (et on peut discuter sans fin du degré de subjectivité qui se cache derrière cette formulation "plus extrême").
amibe

@ amoeba Je pensais que, lorsqu'un exemple adéquat serait fourni, il pourrait servir d'indicateur pour "obtenir les résultats de l'échantillon observé (ou un résultat plus extrême)". Peut-être qu'une meilleure formulation est nécessaire.
Khashaa

1
J'allais faire la même observation que @ amoeba; la partie "ou plus extrême" est bien gérée par exemple dans les réponses des élèves et des participants, mais je ne pense pas que les réponses de ce fil aient trouvé une explication générale claire , en particulier une explication couvrant différentes hypothèses alternatives. Je suis d'accord avec cette réponse suggérant que la partie "ou plus extrême" est un point d'achoppement conceptuel pour de nombreux étudiants.
Silverfish

@Silverfish: et pas seulement les étudiants. Combien de discours Bayésiens-Fréquentistes j'ai lu qui traitent de la question de la subjectivité / objectivité de ce bit "plus extrême"!
Amibe

1
@Silver Je suis d'accord avec vos critiques et j'ai posté une réponse pour tenter d'y répondre. "Ou plus extrême" est le noeud même de la question.
whuber

4

Je trouve utile de suivre une séquence dans laquelle vous expliquez les concepts dans l’ordre suivant: (1) Le score z et les proportions au-dessus et au-dessous du score z en supposant une courbe normale. (2) La notion de distribution d’échantillonnage et le score z pour un échantillon donné ont une moyenne lorsque l’écart-type de la population est connu (et donc le test z à un échantillon) (3) Le test t à un échantillon et la probabilité d’un moyenne de l'échantillon lorsque l'écart type de la population est inconnu (plein d'histoires sur l'identité secrète d'un certain statisticien industriel et les raisons pour lesquelles Guinness est bon pour les statistiques). (4) Le test t à deux échantillons et la distribution d'échantillonnage des différences moyennes. La facilité avec laquelle les débutants saisissent le test t est pour beaucoup dans le travail préparatoire à la préparation de ce sujet.

/ * instructeur de mode étudiant terrifié off * /


4

J'ai également trouvé que les simulations étaient utiles pour l'enseignement.

nN(μ,1)σ2=1H0:μ=μ0

ttstat:=n(X¯μ0)N(0,1)H0pΦ(tstat)pnorm(tstat)

N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

0

Que signifie une "valeur p" par rapport à l'hypothèse testée?

Au sens ontologique (qu'est-ce que la vérité?), Cela ne signifie rien . Tout test d'hypothèse est basé sur des hypothèses non testées . Cela fait normalement partie du test lui-même, mais également du modèle que vous utilisez (par exemple, dans un modèle de régression). Comme nous ne faisons que les assumer, nous ne pouvons pas savoir si la raison pour laquelle la valeur p est inférieure à notre seuil est que la valeur null est false. C’est un non séquentiel de déduire inconditionnellement qu’en raison d’une valeur p faible, nous devons rejeter la valeur null. Par exemple, quelque chose dans le modèle pourrait être faux.

Au sens épistémologique (que pouvons-nous apprendre?), Cela signifie quelque chose . Vous acquérez des connaissances à condition que les lieux non testés soient vrais. Puisque (du moins jusqu'à présent), nous ne pouvons pas prouver tous les édifices de la réalité, toutes nos connaissances seront nécessairement conditionnelles. Nous n'arriverons jamais à la "vérité".


-1

Je pense que des exemples impliquant des billes ou des pièces de monnaie ou une mesure de la hauteur peuvent être utiles pour la pratique du calcul, mais ils ne sont pas bons pour la construction de l'intuition. Les étudiants aiment interroger la société, non? Pourquoi ne pas utiliser un exemple politique?

Supposons qu'un candidat politique ait mené une campagne promettant qu'une politique aiderait l'économie. Elle a été élue, la politique a été adoptée et, deux ans plus tard, l’économie est en plein essor. Elle est prête à être réélue et affirme que sa politique est la raison de la prospérité de tous. Devez-vous la réélire?

Le citoyen avisé devrait dire: "Bien, c'est vrai que l'économie va bien, mais pouvons-nous vraiment attribuer cela à votre politique?" Pour véritablement répondre à cette question, nous devons examiner la question "L’économie aurait-elle bien réussi au cours des deux dernières années sans cela?" Si la réponse est oui (par exemple, l'économie est en plein essor en raison de nouveaux développements technologiques indépendants), nous rejetons l'explication des données fournie par le politicien.

Autrement dit, pour examiner une hypothèse (la politique a aidé l'économie), nous devons construire un modèle du monde où cette hypothèse est nulle (la politique n'a jamais été adoptée). Nous faisons ensuite une prédiction sous ce modèle. Nous appelons la probabilité p d'observer ces données dans ce monde alternatif . Si la valeur p est trop élevée, nous ne sommes pas convaincus par l'hypothèse: la politique ne fait aucune différence. Si la valeur p est basse, nous croyons en l’hypothèse: la politique était essentielle.


1
Je ne suis pas d'accord avec le fait que p soit défini comme "nous appelons la probabilité p d'observer ces données dans ce monde alternatif" et aussi la force de la conclusion tirée (en particulier le fait de ne pas rejeter la valeur nulle).
Silverfish

@ Silverfish Pourriez-vous élaborer? Il serait probablement plus correct d'appeler la valeur p la probabilité de faire cette observation OU une observation plus extrême. Mais il semble que vous ayez une critique plus profonde.
cgreen le

1
Puisque la question initiale demandait ce qu'est une valeur p, j'ai pensé qu'il était important de bien définir cette définition. Le simple fait de dire «plus extrême» n’est pas très utile en soi sans expliquer ce que «plus extrême» pourrait signifier - c’est une faiblesse de la plupart des réponses dans ce fil, je pense. Seules la réponse de whuber et celle du "test du thé" semblent vraiment expliquer pourquoi le "plus extrême" compte aussi.
Silverfish

J'ai aussi senti que vos conclusions sont formulées trop fortement. Si nous rejetons le null, nous disposons de nombreuses preuves contre celui-ci, mais nous ne savons pas que c'est faux. Lorsque nous ne parvenons pas à rejeter la valeur NULL, cela ne signifie certainement pas que la valeur NULL est vraie (bien que cela puisse être le cas). En tant que commentaire plus général, j'ai l'impression que le test que vous décrivez, en termes assez abstraits, ne sera probablement pas clair pour un apprenant qui apprend simplement à effectuer un test. L'absence d'une statistique de test clairement définie ne cadre pas bien avec la question initiale qui demande comment interpréter t -statistic également.
Silverfish

Une caractéristique de cette réponse qui me plait beaucoup est l'explication claire que les valeurs p sont calculées à l'aide d'un modèle nul, même si nous ne croyons pas (subjectivement) que le modèle nul est en réalité vrai. Je pense que les statistiques de tests factuelles sont calculées selon un modèle est un point clé avec lequel de nombreux étudiants se débattent.
Silverfish

-1

p

pX

0c1,FX|H0(inf{x:FX|H0(x)c})=c
FX|H0XH0

X

  1. p[0,1]
  2. [0,1]p

p


P

@ Whuber Merci pour l'entrée. J'ai modifié la définition et cela devrait avoir plus de sens maintenant!
Nalzok

1
X[0,1].

(θ,θ+1)θR,θ=0,X=(X1,,Xn).X(X)=X1.[0,1]H0:n=1X1=2:2

-4

La valeur p n’est pas aussi mystérieuse que le prétendent la plupart des analystes. C'est une façon de ne pas avoir à calculer l'intervalle de confiance pour un test t mais simplement de déterminer le niveau de confiance avec lequel l'hypothèse nulle peut être rejetée.

ILLUSTRATION. Vous faites un test. La valeur p est égale à 0,1866 pour la variable Q et à 0,0023 pour la variable R. (Ceux-ci sont exprimés en%).

Si vous testez à un niveau de confiance de 95%, rejetez l'hypo nulle;

pour Q: 100-18,66 = 81,34%

pour R: 100-0,23 = 99,77%.

À un niveau de confiance de 95%, Q donne une confiance de 81,34% à rejeter. Cela tombe en dessous de 95% et est inacceptable. ACCEPTER NULL.

R donne une confiance de 99,77% pour rejeter null. Clairement au-dessus des 95% souhaités. Nous rejetons donc le nul.

Je viens d'illustrer la lecture de la valeur p par une «méthode inverse» pour la mesurer jusqu'au niveau de confiance auquel nous rejetons l'hypo nulle.


6
QR

@ cardinal souligne un point important. Tu ne vas pas accepter le nul.
Patrick Coulombe

-8

****** La valeur p dans le test d'hypothèse mesure la sensibilité du test. Plus la valeur p est basse, plus la sensibilité est grande. si le niveau de signification est défini sur 0,05, la valeur p de 0,0001 indique une probabilité élevée que les résultats du test soient corrects. ******


6
-1 c'est clairement faux. Vous voudrez peut-être lire les réponses les plus votées en premier.
Momo
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.