En raison de vos commentaires, je ferai deux sections distinctes:
valeurs p
Dans le test d'hypothèse statistique, vous pouvez trouver des «preuves statistiques» pour l' hypothèse alternative ; Comme je l'ai expliqué dans ce qui suit si nous échouons à rejeter l'hypothèse nulle? , il est similaire à la «preuve par contradiction» en mathématiques.
Donc, si nous voulons trouver des «preuves statistiques», nous supposons le contraire, que nous désignons de ce que nous essayons de prouver que nous appelons H 1 . Après cela, nous tirons un échantillon, et à partir de l'échantillon, nous calculons une soi-disant statistique de test (par exemple, une valeur t dans un test t).H0H1
Ensuite, comme nous supposons que est vrai et que notre échantillon est tiré au hasard de la distribution sous H 0 , nous pouvons calculer la probabilité d'observer des valeurs qui dépassent ou égalent la valeur dérivée de notre échantillon (aléatoire). Cette probabilité est appelée la valeur p.H0H0
Si cette valeur est «suffisamment petite», c'est-à-dire inférieure au niveau de signification que nous avons choisi, alors nous rejetons et nous considérons que H 1 est «statistiquement prouvé».H0H1
Plusieurs choses sont importantes dans cette façon de faire:
- nous avons dérivé des probabilités sous l'hypothèse que est vraiH0
- nous avons prélevé un échantillon aléatoire de la distrubtion supposée sous H0
- nous décidons d'avoir trouvé des preuves pour si la statistique de test dérivée de l'échantillon aléatoire a une faible probabilité d'être dépassée. Il n'est donc pas impossible qu'il soit dépassé alors que H 0 est vrai et dans ces cas, nous commettons une erreur de type I. H1H0
Alors, qu'est-ce qu'une erreur de type I: une erreur de type I est commise lorsque l'échantillon, tiré au hasard de , conduit à la conclusion que H 0 est faux alors qu'en réalité il est vrai.H0H0
Notez que cela implique que p-valeur est la probabilité d'une erreur de type I . En effet, une erreur de type I est une mauvaise décision du test et la décision ne peut être prise qu'en comparant la valeur de p au niveau de signification choisi, avec une valeur de p seule on ne peut pas prendre de décision, ce n'est qu'après avoir comparé la valeur de p au niveau de signification choisi qu'une décision est prise , et tant qu'aucune décision n'est prise, l'erreur de type I n'est même pas définie.
Quelle est alors la valeur de p? Le rejet potentiellement erroné de est dû au fait que nous tirons un échantillon aléatoire sous H 0 , il se pourrait donc que nous ayons `` de la malchance '' en tirant l'échantillon, et que cette `` malchance '' mène à un faux rejet de H 0 . Ainsi, la valeur de p (bien que ce ne soit pas entièrement correct) ressemble davantage à la probabilité de tirer un «mauvais échantillon». L'interprétation correcte de la valeur de p est qu'il s'agit de la probabilité que la statistique de test dépasse ou soit égale à la valeur de la statistique de test dérivée d'un échantillon tiré au hasard sous H 0H0H0H0H0
Taux de fausses découvertes (FDR)
Comme expliqué ci-dessus, chaque fois que l'hypothèse nulle est rejetée, on considère cela comme une «preuve statistique» pour . Nous avons donc trouvé de nouvelles connaissances scientifiques, donc cela s'appelle une découverte . On explique également ci-dessus que nous pouvons faire de fausses découvertes (c'est-à-dire rejeter faussement H 0 ) lorsque nous faisons une erreur de type I. Dans ce cas, nous avons une fausse croyance en une vérité scientifique. Nous voulons seulement découvrir des choses vraiment vraies et donc on essaie de garder les fausses découvertes au minimum, c'est-à-dire que l'on contrôlera une erreur de type I. Il n'est pas si difficile de voir que la probabilité d'une erreur de type I est le niveau de signification α choisi . Donc, pour contrôler les erreurs de type I, on fixe un αH1H0αα-niveau reflétant votre volonté d'accepter de «fausses preuves».
Intuitivement, cela signifie que si nous tirons un grand nombre d'échantillons, et avec chaque échantillon, nous effectuons le test, alors une fraction de ces tests conduira à une conclusion erronée. Il est important de noter que nous «établissons une moyenne sur de nombreux échantillons» ; donc même test, de nombreux échantillons. α
α
FDDH0
La probabilité d'erreur de type I est donc liée à l'exécution du même test sur de nombreux échantillons différents. Pour un grand nombre d'échantillons, la probabilité d'erreur de type I convergera vers le nombre d'échantillons conduisant à un faux rejet divisé par le nombre total d'échantillons prélevés .
H0
Notez que, en comparant les deux paragraphes ci-dessus:
- Le contexte est différent; un test et plusieurs échantillons contre plusieurs tests et un échantillon.
- Le dénominateur pour le calcul de la probabilité d'erreur de type I est clairement différent du dénominateur pour le calcul du FDR. Les numérateurs sont similaires en quelque sorte, mais ont un contexte différent.
H00.38×1000
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
La valeur p représente la probabilité a priori de commettre une erreur de type I, c'est-à-dire de rejeter l'hypothèse nulle sous l'hypothèse qu'elle est vraie.