Un dialogue entre un enseignant et un étudiant attentif
Soumis humblement, convaincu que pas assez de crayons ont été utilisés jusqu'à présent dans ce fil. Un bref résumé illustré apparaît à la fin.
Étudiant : Que signifie une valeur de p? Beaucoup de gens semblent s'accorder pour dire que c'est la chance que nous "voyions une moyenne d'échantillon supérieure ou égale à" une statistique ou "la probabilité d'observer ce résultat ... étant donné que l'hypothèse nulle est vraie" ou "la statistique de mon échantillon est tombé sur une distribution "simulée" et même "la probabilité d'observer une statistique de test au moins aussi grande que celle calculée en supposant que l'hypothèse nulle soit vraie" .
Enseignant : Bien compris, toutes ces déclarations sont correctes dans de nombreuses circonstances.
Étudiant : Je ne vois pas comment la plupart d'entre eux sont pertinents. Ne nous avez-vous pas une hypothèse nulle et une hypothèse alternative ? Comment sont-ils impliqués dans ces idées de "plus grand ou égal à" ou de "au moins aussi grand" ou du très populaire "plus extrême"?H AH0HA
Enseignant : Parce que cela peut sembler compliqué en général, cela nous aiderait-il d'explorer un exemple concret?
Étudiant : bien sûr. Mais s'il vous plaît, faites-en un réaliste mais simple si vous le pouvez.
Enseignant : Cette théorie des tests d’hypothèses a historiquement commencé avec la nécessité pour les astronomes d’analyser les erreurs d’observation. Un jour, je parcourais de vieux documents où un scientifique a décrit ses efforts pour réduire l’erreur de mesure dans son appareil. Il avait pris de nombreuses mesures d'une étoile dans une position connue et avait enregistré leurs déplacements devant ou derrière cette position. Pour visualiser ces déplacements, il a dessiné un histogramme qui - une fois lissé - ressemblait à celui-ci.
Etudiant : Je me souviens du fonctionnement des histogrammes: l’axe vertical s’appelle "Densité" pour me rappeler que les fréquences relatives des mesures sont représentées par la surface plutôt que par la hauteur.
Enseignant : C'est vrai. Une valeur "inhabituelle" ou "extrême" serait située dans une région avec une zone assez petite. Voici un crayon. Pensez-vous que vous pourriez colorier une région dont la superficie n’est que le dixième du total?
Étudiant : bien sûr; c'est facile. [Couleurs dans la figure.]
Enseignant : Très bien! Cela ressemble à environ 10% de la région pour moi. Rappelez-vous cependant que les seules zones de l'histogramme qui importent sont celles situées entre les lignes verticales: elles représentent la probabilité ou la probabilité que le déplacement soit situé entre ces lignes sur l'axe horizontal. Cela signifie que vous deviez colorier jusqu'au fond et que cela représenterait plus de la moitié de la surface, n'est-ce pas?
Étudiant : Oh, je vois. Laissez-moi réessayer. Je vais vouloir colorer là où la courbe est vraiment basse, n'est-ce pas? C'est le plus bas aux deux extrémités. Dois-je colorier un seul domaine ou est-ce que je peux le scinder en plusieurs parties?
Enseignant : Utiliser plusieurs parties est une bonne idée. Où seraient-ils?
Étudiant (montrant): ici et ici. Ce crayon n'étant pas très net, j'ai utilisé un stylo pour vous montrer les lignes que j'utilise.
Enseignant : Très bien! Laissez-moi vous raconter le reste de l'histoire. Le scientifique a apporté quelques améliorations à son appareil, puis il a pris des mesures supplémentaires. Il a écrit que le déplacement du premier n'était que de , ce qui, à son avis, était un bon signe, mais étant un scientifique avisé, il a procédé à plusieurs mesures afin de vérifier. Malheureusement, ces autres mesures ont été perdues (le manuscrit est interrompu à ce stade) et tout ce que nous avons, c'est ce nombre unique, .0,10.10.1
Étudiant : C'est dommage. Mais cela ne vaut-il pas mieux que le nombre important de déplacements dans votre silhouette?
Enseignant : C'est la question à laquelle j'aimerais que vous répondiez. Pour commencer, que devrions-nous poser comme ?H0
Etudiant : Eh bien, un sceptique se demanderait si les améliorations apportées à l’appareil avaient un effet quelconque. Le fardeau de la preuve incombe au scientifique: il voudrait montrer que le sceptique est faux. Cela me fait penser que l'hypothèse nulle est plutôt mauvaise pour le scientifique: elle indique que toutes les nouvelles mesures, y compris la valeur de nous connaissons, doivent se comporter comme décrit dans le premier histogramme. Ou peut-être même pire que cela: ils pourraient être encore plus dispersés.0.1
Professeur : Allez, tu vas bien.
Etudiant : Et l’alternative est donc que les nouvelles mesures soient moins dispersées, non?
Enseignant : Très bien! Pouvez-vous me dessiner à quoi ressemblerait un histogramme moins étendu? Voici une autre copie du premier histogramme; vous pouvez dessiner dessus comme référence.
Élève (dessin): J'utilise un stylo pour tracer le nouvel histogramme et je colore la zone située en dessous. J'ai fait en sorte que la majeure partie de la courbe soit proche de zéro sur l'axe horizontal et que, par conséquent, la plus grande partie de sa surface soit proche d'une valeur (horizontale) égale à zéro: c'est ce que signifie être moins étalé ou plus précis.
Enseignant : C'est un bon début. Mais rappelez-vous qu'un histogramme indiquant les chances devrait avoir une surface totale de . La surface totale du premier histogramme est donc de . Quelle est la superficie de votre nouvel histogramme?111
Étudiant : moins de la moitié, je pense. Je vois que c'est un problème, mais je ne sais pas comment le résoudre. Que devrais-je faire?
Enseignant : L'astuce consiste à rendre le nouvel histogramme plus élevé que l'ancien afin que sa surface totale soit égale à . Ici, je vais vous montrer une version générée par ordinateur pour illustrer.1
Etudiant : Je vois: vous l'avez étiré verticalement pour que sa forme ne change pas vraiment, mais maintenant la zone rouge et la zone grise (y compris la partie sous le rouge) sont identiques.
Enseignant : D'accord. Vous regardez une image de l'hypothèse nulle (en bleu, étalée) et une partie de l'hypothèse alternative (en rouge, avec un étalement moins important).
Étudiant : Qu'entendez-vous par "partie" de l'alternative? N'est-ce pas simplement l' hypothèse alternative?
Enseignant : Les statisticiens et la grammaire ne semblent pas se mélanger. :-) Sérieusement, ce qu'ils entendent par une "hypothèse" est généralement un ensemble de grandes possibilités. Ici, l’alternative (comme vous l’avez si bien dit auparavant) est que les mesures sont "moins étalées" qu’auparavant. Mais combien moins ? Il y a beaucoup de possibilités. Ici, laissez-moi vous en montrer un autre. Je l'ai dessiné avec des tirets jaunes. C'est entre les deux précédents.
Etudiant : Je vois: vous pouvez avoir différentes quantités de spread mais vous ne savez pas à l'avance à quel point la spread sera réellement. Mais pourquoi avez-vous créé les ombres amusantes sur cette image?
Enseignant : Je voulais souligner où et comment les histogrammes diffèrent. Je les ai ombrés en gris lorsque les histogrammes alternatifs sont inférieurs au zéro et en rouge lorsque les alternatives sont plus élevés .
Étudiant : Pourquoi est-ce important?
Enseignant : Vous rappelez-vous comment vous avez coloré le premier histogramme dans les deux queues? [Regardant dans les journaux.] Ah, le voici. Colorions cette image de la même manière.
Etudiant : Je me souviens: ce sont les valeurs extrêmes. J'ai trouvé les endroits où la densité nulle était aussi petite que possible et colorée dans 10% de la superficie.
Enseignant : Parlez-moi des alternatives dans ces zones extrêmes.
Etudiant : C'est difficile à voir, parce que le crayon l'a recouvert, mais il semble qu'il n'y ait presque aucune chance pour qu'une alternative soit dans les zones que j'ai colorées. Leurs histogrammes sont exactement en regard de l’axe des valeurs et il n’ya aucune place sous eux.
Enseignant : Continuons cette pensée. Si je vous disais, de façon hypothétique, qu'une mesure présentait un déplacement de et vous demandait de choisir lequel de ces trois histogrammes était celui qui venait le plus vraisemblablement, lequel choisirait-il?−2
Étudiant : Le premier - le bleu. C'est le plus répandu et c'est le seul où semble avoir une chance de se produire.−2
Enseignant : Et qu'en est-il de la valeur de dans le manuscrit?0.1
Étudiant : Hmmm… c'est une autre histoire. Les trois histogrammes sont assez haut au-dessus du sol à .0.1
Professeur : OK, assez bien. Mais supposons que je vous ai dit que la valeur se situait autour de , comme entre et . Est-ce que cela vous aide à lire certaines probabilités sur ces graphiques?0 0,20.100.2
Étudiant : Bien sûr, parce que je peux utiliser des zones. Il me suffit d'estimer les zones situées sous chaque courbe entre et . Mais cela semble assez difficile.0,200.2
Enseignant : Tu n'as pas besoin d'aller aussi loin. Pouvez-vous juste dire quelle zone est la plus grande?
Étudiant : Celui qui se trouve sous la courbe la plus haute, bien sûr. Les trois zones ont la même base, donc plus la courbe est haute, plus il y a de surface en dessous et à la base. Cela signifie que l'histogramme le plus haut - celui que j'ai dessiné, avec les tirets rouges - est le plus probable pour un déplacement de . Je pense que je vois où vous voulez en venir, mais je suis un peu inquiet: n'ai-je pas à regarder tous les histogrammes pour toutes les alternatives, pas seulement le ou les deux présentés ici? Comment pourrais-je faire cela?0.1
Enseignant : Vous savez bien tracer des motifs, alors dites-moi: à mesure que l'appareil de mesure est de plus en plus précis, qu'advient-il de son histogramme?
Etudiant : Ça devient plus étroit - oh, et il faut que ça grandisse aussi, donc sa surface totale reste la même. Cela rend assez difficile la comparaison des histogrammes. Les alternatives sont toutes supérieures au droit nul à , c'est évident. Mais pour d’autres valeurs, les alternatives sont parfois plus élevées et parfois plus basses! Par exemple, [pointant vers une valeur proche de ], ici mon histogramme rouge est le plus bas, l'histogramme jaune est le plus haut et l'histogramme nul d'origine est entre eux. Mais sur la droite, le zéro est le plus élevé.3 / quatre03/4
Enseignant : En général, comparer les histogrammes est une tâche compliquée. Pour nous aider à le faire, j'ai demandé à l'ordinateur de créer un autre graphique: il a divisé chacune des hauteurs d'histogramme (ou "densités") alternatives par la hauteur nulle de l'histogramme, créant ainsi des valeurs appelées "rapports de vraisemblance". Par conséquent, une valeur supérieure à signifie que la solution de rechange est plus probable, tandis qu'une valeur inférieure à signifie que la solution de rechange est moins probable. Il a encore trouvé une alternative: il est plus étendu que les deux autres, mais moins que l’appareil original.111
Enseignant (continuant): Pourriez-vous me montrer où les alternatives ont tendance à être plus probables que les nulles?
Étudiant (coloriage): ici au centre, évidemment. Et comme ce ne sont plus des histogrammes, je suppose que nous devrions regarder les hauteurs plutôt que les zones, alors je ne fais que marquer une plage de valeurs sur l’axe horizontal. Mais comment puis-je savoir dans quelle proportion colorer le milieu? Où puis-je arrêter de colorier?
Enseignant : Il n'y a pas de règle ferme. Tout dépend de la manière dont nous prévoyons d'utiliser nos conclusions et de la férocité des sceptiques. Mais asseyez - vous et pensez à ce que vous avez accompli: vous vous rendez compte maintenant que les résultats avec les grands rapports de vraisemblance sont la preuve de l'alternative et les résultats avec de petits rapports de vraisemblance sont des preuves contre l'autre. Ce que je vous demanderai de faire, c’est de colorier une zone qui, dans la mesure du possible, a une faible chance de se produire sous l’hypothèse nulle et une chance relativement grande de se produire sous les alternatives. En revenant au premier diagramme que vous avez coloré, il y a longtemps, au début de notre conversation, vous avez coloré les deux queues du zéro parce qu'elles étaient "extrêmes". Est-ce qu'ils feraient toujours un bon travail?
Étudiant : Je ne pense pas. Même s'ils étaient assez extrêmes et rares dans l'hypothèse nulle, ils sont pratiquement impossibles pour toutes les alternatives. Si ma nouvelle mesure était, disons , je pense que je me rangerais avec le sceptique et nierais toute amélioration, même si la était un résultat inhabituel dans tous les cas. Je veux changer cette coloration. Ici, laissez-moi un autre crayon.3.03.03.0
Enseignant : Qu'est-ce que cela représente?
Étudiant : Nous avons commencé par vous demander de ne dessiner que 10% de la surface sous l'histogramme d'origine - celui décrivant le zéro. Alors maintenant, j'ai attiré 10% de la zone où les alternatives semblent plus susceptibles de se produire. Je pense que quand une nouvelle mesure est dans ce domaine, cela nous dit que nous devons croire en la solution de rechange.
Enseignant : Et comment le sceptique devrait-il réagir à cela?
Étudiant : Un sceptique n'a jamais à admettre qu'il a tort, n'est-ce pas? Mais je pense que sa foi devrait être un peu secouée. Après tout, nous nous sommes arrangés pour que, bien qu’une mesure puisse être située dans la zone que je viens de dessiner, elle n’a que 10% de chances d’être présente lorsque la valeur nulle est vraie. Et il a plus de chance d’être présent lorsque l’alternative est vraie. Je ne peux tout simplement pas vous dire à quel point cette chance est grande, car cela dépend de la mesure dans laquelle le scientifique a amélioré l'appareil. Je sais juste que c'est plus grand. La preuve serait donc contre le sceptique.
Professeur : D'accord. Pourriez-vous résumer votre compréhension afin que nous sachions parfaitement ce que vous avez appris?
Etudiant : J'ai appris que pour comparer des hypothèses alternatives à des hypothèses nulles, nous devons comparer leurs histogrammes. Nous divisons les densités des alternatives par la densité du zéro: c'est ce que vous appelez le "ratio de vraisemblance". Pour faire un bon test, je devrais choisir un petit nombre, 10% ou tout ce qui pourrait suffire à ébranler un sceptique. Ensuite, je devrais trouver des valeurs où le rapport de probabilité est aussi élevé que possible et les colorer jusqu'à ce que 10% (ou peu importe) aient été colorés.
Enseignant : Et comment utiliseriez-vous cette coloration?
Etudiant : Comme tu me l'as rappelé plus tôt, la coloration doit être entre des lignes verticales. Les valeurs (sur l'axe horizontal) situées sous la coloration sont des preuves à l'appui de l'hypothèse nulle. Autres valeurs - eh bien, il est difficile de dire ce qu’elles pourraient signifier sans examiner de manière plus détaillée tous les histogrammes impliqués.
Enseignant : Pour en revenir à la valeur de dans le manuscrit, que concluriez-vous?0.1
Etudiant : C'est dans la zone que j'ai colorée en dernier, alors je pense que le scientifique avait probablement raison et que l'appareil était vraiment amélioré.
Enseignant : Une dernière chose. Votre conclusion était basée sur le critère de 10%, ou "taille" du test. Beaucoup de gens aiment utiliser 5% à la place. Certains préfèrent 1%. Que pourriez-vous leur dire?
Étudiant : Je ne pouvais pas faire tous ces tests à la fois! Eh bien, je pourrais peut-être en quelque sorte. Je peux voir que, quelle que soit la taille du test, je devrais commencer à colorier à partir de , ce qui est en ce sens la valeur "la plus extrême", et travailler ensuite dans les deux sens. Si je m'arrêtais bien à % - la valeur effectivement observée -, je pense que j'aurais coloré dans une zone située entre et , disons . Les gens à 5% et à 1% pouvaient dire tout de suite que je colorais trop: s'ils voulaient colorer à peine 5% ou 1%, ils le pouvaient, mais ils ne sortiraient pas aussi loin que %.0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Ils n'arriveraient pas à la même conclusion que moi: ils diraient qu'il n'y a pas assez de preuves qu'un changement a réellement eu lieu.
Professeur : Vous venez de me dire ce que toutes ces citations au début veulent vraiment dire. Il devrait être évident d'après cet exemple qu'ils ne peuvent pas avoir l'intention "plus extrême", "supérieur ou égal" ou "au moins aussi grand" en ce sens qu'ils ont une valeur plus grande ou même une valeur où la densité nulle est petite. Ils signifient vraiment ces choses au sens des ratios de vraisemblance élevés que vous avez décrits. À propos, le nombre autour de que vous avez calculé s'appelle la "valeur p". Vous ne pouvez le comprendre correctement que de la manière que vous avez décrite: en ce qui concerne l’analyse des hauteurs relatives des histogrammes - les rapports de vraisemblance.0.08
Étudiant : merci. Je ne suis pas sûr de bien comprendre tout cela, mais vous m'avez donné beaucoup de matière à réflexion.
Enseignant : Si vous voulez aller plus loin, jetez un coup d'œil au lemme de Neyman-Pearson . Vous êtes probablement prêt à comprendre maintenant.
Synopsis
De nombreux tests basés sur une seule statistique, comme celle de la boîte de dialogue, l'appelleront " " ou " ". Ce sont des façons d'indiquer à quoi ressemble l'histogramme nul, mais ce ne sont que des indices: ce que nous appelons ce nombre importe peu. La construction résumée par l'étudiant, illustrée ici, montre comment elle est liée à la valeur p. La valeur p est la plus petite taille de test qui permettrait à une observation de de rejeter l'hypothèse nulle.t t = 0,1ztt=0.1
Sur cette figure, qui est agrandie pour montrer les détails, l’hypothèse nulle est tracée en bleu continu et deux alternatives typiques sont tracées avec des lignes en pointillés. La région où ces alternatives ont tendance à être beaucoup plus grandes que le zéro est ombrée. L'ombrage commence là où les probabilités relatives des alternatives sont les plus grandes (à ). L'ombrage cesse lorsque l'observation est atteinte. La valeur p est l'aire de la région ombrée sous l'histogramme nul: c'est la chance, en supposant que la valeur nulle soit vraie, d'observer un résultat dont les rapports de vraisemblance tendent à être importants quelle que soit l'alternative vraie. En particulier, cette construction dépend intimement de l'hypothèse alternative. Il ne peut être réalisé sans spécifier les alternatives possibles.t = 0,10t=0.1