Le rejet de l'hypothèse utilisant la valeur p équivaut-il à une hypothèse n'appartenant pas à l'intervalle de confiance?

Tout en dérivant formellement l'intervalle de confiance d'une estimation, je me suis retrouvé avec une formule qui ressemble de très près à la façon dont la valeur de est calculée. $p$

D'où la question: sont-ils formellement équivalents? Ie rejette une hypothèse avec une valeur critique équivalente à n'appartenant pas à l'intervalle de confiance avec une valeur critique ? $H_0 = 0$ $\alpha$ $0$ $\alpha$

hypothesis-testing confidence-interval p-value

— Jorge Leitao
source

@f coppens: oui, si deux tests sont utilisés, avec des statistiques différentes, vous vous retrouvez avec deux intervalles de confiance différents. Mais je pense que l'OP a découvert un fait fondamental: à la fois l'intervalle de confiance et la valeur p sont obtenus à partir de la distribution de la même statistique, de sorte que les deux peuvent être utilisés pour décider de rejeter l'hypothèse nulle ou non.

— StijnDeVuyst

@StijnDeVuyst: L'intervalle Clopper / Pearon pour une proportion et l'intervalle Sterne pour une proportion sont tous deux dérivés de la distribution binomiale de même taille (le p est inconnu car ils trouvent un intervalle de confiance pour p). La différence entre Clopper / Pearson et Sterne est due à l'asymétrie de la densité binomiale. L'intervalle Sterne essaie de minimiser la largeur de l'intervalle et Clopper_pearson essaie de garder la symétrie (mais en raison de l'asymétrie du binôme, cela ne peut être trouvé qu'approximativement).

Pas en général, non. Considérons les cas où la largeur de l'intervalle est fonction de la valeur estimée du paramètre, tandis que pour le test, la largeur de l'intervalle est fonction de l'hypothèse. Un exemple évident serait de tester un binôme p. Utilisons la normale d'env. pour plus de simplicité (bien que la forme de l'argument ne repose pas sur elle). Considérons n = 10 et un nul de p = 0,5. Imaginez observer 2 têtes; le nul n'est pas rejeté (parce que "2" est à l'intérieur d'un intervalle de 95% environ 0,5) mais le CI pour p n'inclut pas 0,5 (parce que le CI est plus étroit que la largeur de l'intervalle sous le nul.

— Glen_b -Reinstate Monica

Ou si vous avez besoin qu'il soit suffisamment grand pour que la normale approximative soit bonne, essayez 469 têtes en 1000 lancers, pour H0 p = 0,5; encore une fois, l'IC à 95% pour p n'inclut pas 0,5 mais le test à 5% ne rejette pas, car la largeur d'intervalle correspondante sous H0 est plus large que sous l'alternative (c'est de cela que vous faites l'IC à partir).

— Glen_b -Reinstate Monica

@Glen_b: Il semble que cette nouvelle question stats.stackexchange.com/questions/173005 donne un exemple de la situation que vous décriviez ici.

— amibe dit Réintégrer Monica le

Oui et non.

D'abord le "oui"

Ce que vous avez observé, c'est que lorsqu'un test et un intervalle de confiance sont basés sur la même statistique, il y a une équivalence entre eux: on peut interpréter la valeur comme la plus petite valeur de pour laquelle la valeur nulle du paramètre serait être inclus dans l' intervalle de confiance . $p$ $\alpha$ $1-\alpha$

Soit un paramètre inconnu dans l'espace des paramètres , et que l'échantillon soit une réalisation de la variable aléatoire . Pour simplifier, définir un intervalle de confiance comme un intervalle aléatoire tel que sa probabilité de couverture $\theta$ $\Theta\subseteq\mathbb{R}$ $\mathbf{x}=(x_1,\ldots,x_n)\in\mathcal{X}^ n\subseteq\mathbb{R}^n$ $\mathbf{X}=(X_1,\ldots,X_n)$ $I_\alpha(\mathbf{X})$ (Vous pouvez également considérer des intervalles plus généraux, où la probabilité de couverture est limitée par ou approximativement égale à . Le raisonnement est analogue.)

P_{θ} (θ \in I_{α} (X)) = 1 - α for all α \in (0, 1) .

$P_\theta(\theta\in I_\alpha(\mathbf{X}))= 1-\alpha\qquad\mbox{for all }\alpha\in(0,1).$

1 - α

$1-\alpha$

Considérons un test bilatéral de l'hypothèse ponctuelle nulle contre l'alternative . Soit la valeur de p du test. Pour tout , est rejeté au niveau si $H_0(\theta_0): \theta=\theta_0$ $H_1(\theta_0): \theta\neq \theta_0$ $\lambda(\theta_0,\mathbf{x})$ $\alpha\in(0,1)$ $H_0(\theta_0)$ $\alpha$ . Larégion de rejet deniveau est l'ensemble de qui conduit au rejet de : $\lambda(\theta_0,x)\leq\alpha$ $\alpha$ $\mathbf{x}$ $H_0(\theta_0)$

R_{α} (θ_{0}) = {x \in R^{n} : λ (θ_{0}, x) \leq α} .

$R_\alpha(\theta_0)=\{\mathbf{x}\in\mathbb{R}^n: \lambda(\theta_0,\mathbf{x})\leq\alpha\}.$

Considérons maintenant une famille de tests bilatéraux avec des valeurs de p , pour . Pour une telle famille, nous pouvons définir une région de rejet inversée $\lambda(\theta,\mathbf{x})$ $\theta\in\Theta$

Q_{α} (x) = {θ \in Θ : λ (θ, x) \leq α} .

$Q_\alpha(\mathbf{x})=\{\theta\in\Theta: \lambda(\theta,\mathbf{x})\leq\alpha\}.$

Pour tout fixe , est rejeté si , ce qui se produit si et seulement si , c'est-à-dire Si le test est basé sur une statistique de test avec une distribution nulle absolument continue complètement spécifiée, alors $\theta_0$ $H_0(\theta_0)$ $\mathbf{x}\in R_\alpha(\theta_0)$ $\theta_0\in Q_\alpha(\mathbf{x})$

x \in R_{α} (θ_{0}) \Leftrightarrow θ_{0} \in Q_{α} (x) .

$\mathbf{x}\in R_\alpha(\theta_0) \Leftrightarrow \theta_0\in Q_\alpha(\mathbf{x}).$

sous

. Alors

Puisque cette équation est valable pour tout

λ (θ_{0}, X) \sim U (0, 1)

$\lambda(\theta_0,\mathbf{X})\sim \mbox{U}(0,1)$

H_{0} (θ_{0})

$H_0(\theta_0)$

P_{θ_{0}} (X \in R_{α} (θ_{0})) = P_{θ_{0}} (λ (θ_{0}, X) \leq α) = α .

$P_{\theta_0}(\mathbf{X}\in R_\alpha(\theta_0))=P_{\theta_0}(\lambda(\theta_0,\mathbf{X})\leq\alpha)=\alpha.$

θ_{0} \in Θ

$\theta_0\in\Theta$ et puisque l'équation ci-dessus implique que

il s'ensuit que l'ensemble aléatoire

couvre toujours le vrai paramètre

avec probabilité

. Par conséquent, en laissant

désigner le complément de

P_{θ_{0}} (X \in R_{α} (θ_{0})) = P_{θ_{0}} (θ_{0} \in Q_{α} (X)),

$P_{\theta_0}(\mathbf{X}\in R_\alpha(\theta_0))=P_{\theta_0}(\theta_0\in Q_\alpha(\mathbf{X})),$

Q_{α} (x)

$Q_\alpha(\mathbf{x})$

θ_{0}

$\theta_0$

α

$\alpha$

Q_{α}^{C} (x)

$Q_\alpha^C(\mathbf{x})$

, pour tout

nous avons

ce qui signifie que le complément de la région de rejet inversé est unintervalle de confiance

pour

Q_{α} (x)

$Q_\alpha(\mathbf{x})$

θ_{0} \in Θ

$\theta_0\in\Theta$

P_{θ_{0}} (θ_{0} \in Q_{α}^{C} (X)) = 1 - α,

$P_{\theta_0}(\theta_0\in Q_\alpha^C(\mathbf{X}))=1-\alpha,$

1 - α

$1-\alpha$

θ

$\theta$

$z$ $\theta$ $\bar{x}$ $\sigma=1$ $H_0(\theta)$ $(\bar{x},\theta)$ $R_{0.05}(-0.9)=(-\infty,-1.52)\cup(-0.281,\infty)$ $I_{0.05}(1/2)=Q_{0.05}^C(1/2)=(-0.120,1.120)$

(Une grande partie de cela est tirée de ma thèse de doctorat .)

Maintenant pour le "non"

$\theta$ $X$

Ce phénomène est lié à des problèmes liés à l'imbrication de tels intervalles, ce qui signifie que l'intervalle de 94% peut être plus court que l'intervalle de 95%. Pour en savoir plus à ce sujet, voir la section 2.5 de mon récent article (à paraître dans Bernoulli).

Et un deuxième "non"

$\theta_0=0$

Et parfois "oui" n'est pas une bonne chose

Comme l'a souligné f coppens dans un commentaire, les intervalles et les tests ont parfois des objectifs quelque peu contradictoires. Nous voulons des intervalles courts et des tests avec une puissance élevée, mais l'intervalle le plus court ne correspond pas toujours au test avec la puissance la plus élevée. Pour quelques exemples de cela, voir cet article (distribution normale multivariée), ou ceci (distribution exponentielle), ou la section 4 de ma thèse .

Les Bayésiens peuvent aussi dire oui et non

Il y a quelques années, j'ai posé ici une question sur la question de savoir si une équivalence d'intervalle de test existe également dans les statistiques bayésiennes. La réponse courte est qu'en utilisant le test d'hypothèse bayésienne standard, la réponse est "non". En reformulant un peu le problème des tests, la réponse peut cependant être «oui». (Mes tentatives pour répondre à ma propre question se sont finalement transformées en papier !)

— MånsT
source

Bonne réponse (+1) et (vous le faites partiellement), il peut être bon de souligner que parfois les intervalles de confiance et les tests d'hypothèse ont des objectifs (potentiellement) contradictoires: on essaie de trouver un intervalle de confiance `` aussi petit que possible '' tout en pour tester les hypothèses, on essaie de trouver une région critique «aussi puissante que possible».

@fcoppens: Merci pour la suggestion! J'ai mis à jour ma réponse avec quelques lignes à ce sujet.

— MånsT

Bonne thèse! Avez-vous également travaillé sur l'intervalle Sterne?

@fcoppens: Oui, j'ai fait un peu de travail à l'intervalle Sterne, principalement dans cet article

— MånsT

T_{1} = (\hat{p} - p) / \sqrt{\hat{p} (1 - \hat{p}) / n}

$T_1=(\hat{p}-p)/\sqrt{\hat{p}(1-\hat{p})/n}$

T_{2} = (\hat{p} - p) / \sqrt{p (1 - p) / n}

$T_2=(\hat{p}-p)/\sqrt{p(1-p)/n}$

$\alpha$ $\leq \alpha$

— Björn
source