Intervalle de confiance autour du rapport de deux proportions

J'ai deux proportions (par exemple, le taux de clics (CTR) sur un lien dans une disposition de contrôle et le CTR sur un lien dans une disposition expérimentale), et je veux calculer un intervalle de confiance de 95% autour du rapport de ces proportions.

Comment puis-je faire cela? Je sais que je peux utiliser la méthode delta pour calculer la variance de ce rapport, mais je ne sais pas quoi faire à part cela. Que dois-je utiliser comme point médian de l'intervalle de confiance (mon rapport observé ou le rapport attendu qui est différent) et combien d'écarts-types autour de ce rapport dois-je prendre?

Dois-je utiliser la variance de la méthode delta? (Je ne me soucie pas vraiment de la variance, juste un intervalle de confiance.) Dois-je utiliser le théorème de Fieller , en utilisant le cas 1 (puisque je fais des proportions, je suppose que je satisfait l'exigence de distribution normale)? Dois-je simplement calculer un échantillon bootstrap?

confidence-interval

— raegtin
source

Vous avez un problème fondamental: la plupart des proportions ont une chance positive d'être nulle, d'où le rapport (des proportions indépendantes) a une chance positive d'être indéfini. Cela peut présenter de graves difficultés pour les méthodes approximatives (comme la méthode delta) et suggère que les approximations normales devraient être vues plus sceptiquement et testées plus rigoureusement que d'habitude.

— whuber

Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: Méthodes statistiques pour les taux et les proportions [1] examine le risque relatif, qui est un quotient de deux taux. Je n'ai pas le livre, donc je ne peux que consulter l'index des sujets et la table des matières, mais peut-être que votre bibliothèque l'a. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428

— cbeleites prend en charge Monica le

Un bootstrap centile serait sûrement la meilleure méthode?

— Peter Ellis

La manière standard de le faire en épidémiologie (où un rapport de proportions est généralement appelé un rapport de risque ) consiste à commencer par transformer le rapport en logarithme, à calculer un intervalle de confiance sur l'échelle logarithmique en utilisant la méthode delta et en supposant une distribution normale, puis retransformez. Cela fonctionne mieux dans des tailles d'échantillons modérées que l'utilisation de la méthode delta sur l'échelle non transformée, bien qu'elle se comportera toujours mal si le nombre d'événements dans l'un ou l'autre groupe est très faible, et échoue complètement s'il n'y a aucun événement dans l'un ou l'autre groupe.

S'il y a et succès dans les deux groupes sur des totaux et , alors l'estimation évidente pour le rapport des proportions est $x_1$ $x_2$ $n_1$ $n_2$

\hat{θ} = \frac{x_{1} / n_{1}}{x_{2} / n_{2}} .

$\hat\theta = \frac{x_1/n_1}{x_2/n_2}.$

En utilisant la méthode delta et en supposant que les deux groupes sont indépendants et les succès sont distribués binomiale, vous pouvez montrer que En prenant la racine carrée de ce qui donne l'erreur type . En supposant que est normalement distribué, un intervalle de confiance de 95% pour

Var (\log \hat{θ}) = 1 / x_{1} - 1 / n_{1} + 1 / x_{2} - 1 / n_{2} .

$\operatorname{Var}(\log \hat\theta) = 1/x_1 - 1/n_1 +1/x_2 - 1/n_2.$

SE (\log \hat{θ})

$\operatorname{SE}(\log \hat\theta)$

\log \hat{θ}

$\log \hat\theta$

\log θ

$\log \theta$ est

Exponentiation ce qui donne un intervalle de confiance de 95% pour le rapport des proportions

comme

\log \hat{θ} \pm 1.96 SE (\log \hat{θ}) .

$\log \hat\theta \pm 1.96 \operatorname{SE}(\log \hat\theta).$

θ

$\theta$

\hat{θ} \exp [\pm 1.96 SE (\log \hat{θ})] .

$\hat\theta \exp\left[ \pm1.96 \operatorname{SE}(\log\hat\theta)\right].$

— un arrêt
source

n_{1}

$n_1$

n_{2}

$n_2$

n_{1} p_{1}

$n_1 p_1$

n_{2} p_{2}

$n_2 p_2$

10

$10$

x_{2} = 0

$x_2=0$

x_{i} = n_{i}

$x_i=n_i$

1 / 2

$1/2$

x_{i}

$x_i$

1

$1$

n_{i}

$n_i$

p_{i} n_{i}

$p_i n_i$

4

$4$

n_{i}

$n_i$

@whuber: "approche de type correction de continuité" - l'utilisation de 1/2 en particulier est-elle une astuce courante? (Par opposition à d'autres petits pseudocomptes.) La façon dont vous l'avez formulée fait 1/2 son de principe d'une certaine manière =) - est-ce?

— raegtin

x_{i}

$x_i$

n_{i}

$n_i$

Pourquoi l'erreur standard de la racine carrée de la variance dans ce cas, et non l'écart-type?

— Mikko

@onestop Est-ce implémenté dans n'importe quel package R?

— Bogdan Vasilescu