Le taux d'erreur de type I est-il égal à alpha ou tout au plus alpha?

Selon la page Wikipedia de p-value :

Lorsque la valeur de p est calculée correctement, ce test garantit que le taux d'erreur de type I est au maximum . $\alpha$

Cependant, plus bas sur la page, cette formule est donnée:

$Pr (R e j e c t H | H) = Pr (p \leq α | H) = α$ $\Pr(\mathrm{Reject}\; H|H) = \Pr(p \leq \alpha|H) = \alpha$

En supposant que "taux d'erreur de type 1" = $\Pr(\mathrm{Reject}\; H|H)$ cela suggère que le taux d'erreur de type 1 est $\alpha$ et non "tout au plus $\alpha$ ". Sinon, la formule se lirait:

Pr (R e j e c t H | H) \leq α

$\Pr(\mathrm{Reject}\; H|H) \leq \alpha$

Où est mon malentendu?

hypothesis-testing p-value type-i-and-ii-errors

— Oeuf
source

Lorsque l '"hypothèse nulle" comprend plus d'un état de la nature, le taux de faux positifs réel (FPR) peut varier avec cet état. Tout ce que nous pouvons faire est de garantir une limite sur le FPR quel que soit cet état de nature - mais nous ne pouvons pas toujours garantir que le FPR est réellement égal à $\alpha$ .

(Il existe d'autres raisons pour lesquelles le FPR pourrait ne pas être réellement égal à sa valeur cible , comme lorsque la statistique de test est discrète. Ces situations peuvent généralement être corrigées en utilisant des procédures de décision randomisées. En tant que telles, elles ne fournissent aucun aperçu fondamental question.) $\alpha$

Considérons le test unilatéral classique où la statistique est supposée avoir une distribution normale de moyenne inconnue et (pour simplifier) l'écart type connu . doit être comparé à . L'hypothèse nulle est tandis que l'hypothèse alternative est . La région de rejet est donc de la forme $X$ $\mu$ $\sigma$ $\mu$ $0$ $H_0:\mu \ge 0$ $H_A:\mu \lt 0$

R (α) = (- \infty, Z_{α}]

$\mathcal{R}(\alpha) = (-\infty, Z_\alpha]$

où est choisi pour que la chance d'observer une statistique dans cette région soit au maximum : $Z_\alpha$ $\alpha$

\begin{matrix} (1) & α = sup (Pr (X \in R (α))) . \end{matrix}

$\alpha =\sup\left(\Pr(X \in \mathcal{R}(\alpha))\right)\tag{1}.$

Sous les hypothèses, cette probabilité est donnée par la fonction de distribution normale : $\Phi$

\begin{matrix} (2) & Pr (X \in R (α)) = Φ (\frac{Z_{α} - μ}{σ}) . \end{matrix}

$\Pr(X \in \mathcal{R}(\alpha)) = \Phi\left(\frac{Z_\alpha-\mu}{\sigma}\right)\tag{2}.$

Cette probabilité dépend de la valeur inconnue de . $\mu$ Par conséquent, nous ne pouvons pas garantir qu'il est réellement égal à . En effet, pour les grands , est pratiquement nul. Nous devons cependant couvrir toutes nos bases et garantir que tant que est cohérent avec l'hypothèse nulle, le taux de faux positifs ne dépassera pas . $\alpha$ $\mu$ $(2)$ $\mu$ $(1)$ $\alpha$

— whuber
source

@ JackPierce-Brown La formule est correcte pour l'hypothèse de point nul et pour la statistique de test continu. C'est ce qui doit être supposé dans l'article de Wikipédia, mais n'est probablement pas précisé. (+1)

— amoeba

@Amoeba a raison. Il est à noter, en outre, que seuls quelques tests pratiques impliquent réellement des hypothèses ponctuelles nulles. Même le test t de Student classique de vs n'est pas un point Null, car il existe de nombreuses possibilités pour la valeur inconnue du paramètre même si le null définit la valeur de .

H_{0} : μ = 0

$H_0:\mu=0$

H_{A} : μ > 0

$H_A:\mu \gt 0$

σ

$\sigma$

μ

$\mu$

— whuber

@whuber Hmm, votre exemple de test t est déroutant. Peux-tu élaborer? Je pensais que est un point nul, car est un point, et n'entre pas dans l'hypothèse nulle. Si ce n'est pas un point nul, cela signifie-t-il que le taux d'erreur de type I n'est pas égal à ? J'aurais pensé qu'il devrait être égal à quel que soit .

H_{0} = 0

$H_0=0$

0

$0$

σ

$\sigma$

α

$\alpha$

α

$\alpha$

σ

$\sigma$

— amoeba

@Amoeba fait partie de l'hypothèse nulle. Rigoureusement, l'espace des paramètres estL'hypothèse nulle est le sous-ensembleCe n'est pas un seul état de la nature. Mais ce n'est peut-être pas le meilleur exemple possible, car la distribution de la statistique ne dépend pas de : c'est pourquoi un FPR constant est possible.

σ

$\sigma$

Θ = {(μ, σ) ∣ μ \in R, σ \geq 0} .

$\Theta = \{(\mu,\sigma)\mid \mu\in\mathbb{R},\,\sigma \ge 0\}.$

H_{0} = {(μ, σ) ∣ μ = 0, σ \geq 0} \subset Θ .

$H_0=\{(\mu,\sigma)\mid \mu=0,\sigma\ge 0\} \subset\Theta.$

t

$t$

σ

$\sigma$

— whuber

Intéressant. Je vois.

— amoeba

C'est un problème sournois. Si vous disposez de données continues et que vous les traitez de manière appropriée, alors . Cependant, lorsque vos données sont discrètes, il peut ne pas être possible pour . Considérez les données binomiales pour savoir si une pièce est juste, avec 5 flips de pièces, les valeurs p unilatérales possibles sont: $\Pr(p \leq \alpha|H_0) = \alpha$ $p = \alpha$

> pbinom(0:5, size=5, prob=.5)
[1] 0.03125 0.18750 0.50000 0.81250 0.96875 1.00000

Seules têtes peuvent produire une erreur de type I, et la probabilité associée à cette erreur est . Ainsi, le taux d'erreur de type I serait maintenu à "au plus ", mais pas égal à . $0$ $\approx 0.03$ $α$ $\alpha$

D'un autre côté, il existe des stratégies d'analyse (invalides) qui conduisent à des taux d'erreur de type I supérieurs à , même lorsque (par exemple, des routines de sélection pas à pas). $\alpha$ $p<\alpha$

J'ai une discussion plus approfondie ici: comparaison et contraste, valeurs de p, niveaux de signification et erreur de type I

— gung - Réintégrer Monica
source