La correction des «tests multiples» est nécessaire chaque fois que vous «gonflez l'erreur de type I»: par exemple, si vous effectuez deux tests, chacun à un niveau de confiance , et pour le premier, nous testons le null contre l'alternative et la deuxième hypothèse contre . α=5%H(1)0H(1)1H(2)0H(2)1
On sait alors que l'erreur de type I, par exemple pour la première hypothèse, est la probabilité de rejeter faussement et est-ce .H(1)0α=5%
Si vous effectuez les deux tests, la probabilité qu'au moins l'un des deux soit faussement rejeté est égale au 1 moins la probabilité que les deux soient acceptés, donc qui, pour est égal à , donc l'erreur de type un d'avoir au moins un faux rejet est presque doublée!1−(1−α)2α=5%9.75%
Dans les tests d'hypothèses statistiques, on ne peut trouver des preuves statistiques de l'hypothèse alternative qu'en rejetant le null, le rejet du null nous permet de conclure qu'il existe des preuves en faveur de l'hypothèse alternative. (voir aussi Que suit si on ne rejette pas l'hypothèse nulle? ).
Un faux rejet du nul nous donne donc de fausses preuves donc une fausse croyance à la «vérité scientifique». C'est pourquoi cette inflation de type I (le quasi-doublement de l'erreur de type I) doit être évitée; des erreurs de type I plus élevées impliquent davantage de fausses croyances selon lesquelles quelque chose est scientifiquement prouvé . Par conséquent, les gens `` contrôlent '' l'erreur de type au niveau familial.
S'il existe une équipe de chercheurs qui effectue plusieurs tests, chaque fois qu'ils rejettent l'hypothèse nulle, ils concluent qu'ils ont trouvé des preuves statistiques d'une vérité scientifique. Cependant, par ce qui précède, beaucoup plus de de ces conclusions sont une fausse croyance à la «vérité scientifique». 5%
Par le même raisonnement, il en va de même si plusieurs équipes effectuent ces tests (sur les mêmes données).
De toute évidence, les résultats ci-dessus ne sont valables que si nous, les équipes, travaillons sur les mêmes données . Qu'est-ce qui est différent alors quand ils travaillent sur différents échantillons?
Pour expliquer cela, prenons un exemple simple et très irréaliste. Notre hypothèse nulle est qu'une population a une distribution normale, avec un connu et le nul indique que contre . Prenons le niveau de signification .σH0:μ=0H1:μ≠0α=5%
Notre échantillon («les données») n'est qu'une observation, nous rejetterons donc la valeur nulle lorsque l'observation est soit supérieure à soit inférieure à .1,96 σ - 1,96 σo1.96σ−1.96σ
Nous faisons une erreur de type I avec une probabilité de car il se pourrait que nous rejetions juste par hasard, en effet, si est vrai (donc la population est normale et ) alors il y a (avec vrai ) une chance que ]. Donc, même si est vrai, il y a une chance que nous n'ayons pas de chance avec les données. H 0 H 0 μ = 0 H 0 o ∉ [ - 1,96 σ ; 1,96 σ H 05%H0H0μ=0H0o∉[−1.96σ;1.96σH0
Donc, si nous utilisons les mêmes données, il se pourrait que les conclusions des tests soient basées sur un échantillon qui a été tiré avec une «mauvaise chance». Avec un autre échantillon, le contexte est différent.