Comment calculer les intervalles de confiance pour les ratios?


12

Considérons une expérience qui produit un rapport compris entre 0 et 1. La manière dont ce rapport est obtenu ne devrait pas être pertinente dans ce contexte. Il a été élaboré dans une version précédente de cette question , mais supprimé pour plus de clarté après une discussion sur la méta .Xi

Cette expérience est répétée fois, tandis que est petit (environ 3-10). Les sont supposés être indépendants et distribués de manière identique. A partir de ceux-ci, nous estimons la moyenne en calculant la moyenne , mais comment calculer un intervalle de confiance correspondant ?n X i ¯ X [ U , V ]nnXiX¯[U,V]

Lorsque vous utilisez l'approche standard pour calculer les intervalles de confiance, est parfois supérieur à 1. Cependant, mon intuition est que l'intervalle de confiance correct ...V

  1. ... doit être compris entre 0 et 1
  2. ... devrait diminuer avec l'augmentation den
  3. ... est à peu près de l'ordre de celui calculé à l'aide de l'approche standard
  4. ... est calculé par une méthode mathématiquement valable

Ce ne sont pas des exigences absolues, mais j'aimerais au moins comprendre pourquoi mon intuition est fausse.

Calculs basés sur les réponses existantes

Dans ce qui suit, les intervalles de confiance résultant des réponses existantes sont comparés pour .{Xi}={0.985,0.986,0.935,0.890,0.999}

Approche standard (aka "School Math")

σ2=0,0204[0,865,1,053]X¯=0.959 , , donc l'intervalle de confiance à 99% est . Cela contredit l'intuition 1.σ2=0.0204[0.865,1.053]

Recadrage (suggéré par @soakley dans les commentaires)

Il est facile d' utiliser simplement l'approche standard, puis de fournir comme résultat. Mais sommes-nous autorisés à le faire? Je ne suis pas encore convaincu que la limite inférieure reste juste constante (-> 4.)[0.865,1.000]

Modèle de régression logistique (suggéré par @Rose Hartman)

Données transformées: résultat , la retransformation aboutit à . De toute évidence, le 6,90 est une valeur aberrante pour les données transformées tandis que le 0,99 n'est pas pour les données non transformées, ce qui entraîne un intervalle de confiance très grand. (-> 3.)[ 0,173 , 7,87 ] [ 0,543 , 0,999 ]{4.18,4.25,2.09,2.66,6.90}[0.173,7.87][0.543,0.999]

Intervalle de confiance de la proportion binomiale (suggéré par @Tim)

L'approche semble assez bonne, mais malheureusement elle ne correspond pas à l'expérience. Le simple fait de combiner les résultats et de les interpréter comme une grande expérience répétée de Bernoulli, comme le suggère @ZahavaKor, donne les résultats suivants:

985+986+890+935+999=4795 sur au total. L'alimentation dans l'adj. La calculatrice de Wald donne . Cela ne semble pas réaliste, car pas un seul n'est dans cet intervalle! (-> 3.)51000X i[0.9511,0.9657]Xi

Bootstrapping (suggéré par @soakley)

Avec nous avons 3125 permutations possibles. En prenant le moyenne des permutations, nous obtenons . Ne semble pas si mal, même si je m'attendrais à un intervalle plus long (-> 3.). Cependant, il est par construction jamais plus grand que . Ainsi, pour un petit échantillon, il va plutôt croître que rétrécir pour augmenter (-> 2.). C'est du moins ce qui se passe avec les échantillons donnés ci-dessus.3093n=5[0,91,0,99][min(Xi),max(Xi)]n30933125=0.99[0.91,0.99][min(Xi),max(Xi)]n


Vous avez raison dans votre deuxième approche. Je ne suis pas sûr de la première - elle n'est pas clairement énoncée en termes statistiques. Pour autant que je sache, la reproductibilité signifie que la même expérience est effectuée par un chercheur différent et qu'ils obtiennent des résultats similaires. Vous devez spécifier votre objectif plus clairement, de préférence en termes d'hypothèse statistique concernant le paramètre que vous essayez d'estimer. Le simple fait d'utiliser le terme "reproductibilité" est trop vague à mon avis.
Zahava Kor

Vous avez raison, la répétabilité est le terme correct et non la reproductibilité. Je vais essayer de construire une définition en termes statistiques.
koalo

@ZahavaKor J'ai supprimé mon exemple sous-spécifié sur la répétabilité et spécifié mon application réelle en espérant qu'il clarifie mon problème et ne crée pas de confusion.
koalo

Si vous prenez réellement des échantillons de taille 1000, vous n'avez pas correctement appliqué l'approche de rééchantillonnage. Mais avec autant de données, vous n'avez pas besoin de rééchantillonnage et vous devriez obtenir de bons résultats (c'est-à-dire des intervalles de confiance étroits) avec l'approche binomiale standard, comme vous l'avez trouvé ci-dessus. Le fait que vos points de données individuels ne se trouvent pas dans l'intervalle résultant ne signifie pas que l'intervalle est incorrect.
soakley

1
Eh bien, pensez-y. Vous échantillonnez 10 articles et obtenez 9 succès. J'en échantillonne 1000 et obtiens 900 succès. Qui aura l'estimation la plus précise de la moyenne? Essayez d'utiliser la formule référencée par Tim si l'intuition n'est pas encore là. Donc, dans le dernier exemple de votre question, la taille de l'échantillon n'est pas 5, c'est 5000!
soakley

Réponses:


6

Tout d'abord, pour clarifier, ce à quoi vous avez affaire n'est pas tout à fait une distribution binomiale, comme le suggère votre question (vous vous y référez comme une expérience de Bernoulli). Les distributions binomiales sont discrètes --- le résultat est un succès ou un échec. Votre résultat est un ratio à chaque fois que vous exécutez votre expérience , et non un ensemble de succès et d'échecs sur lesquels vous calculez ensuite un ratio de synthèse. Pour cette raison, les méthodes de calcul d'un intervalle de confiance de proportion binomiale jetteront une grande partie de vos informations. Et pourtant, vous avez raison, il est problématique de traiter cela comme s'il était normalement distribué, car vous pouvez obtenir un CI qui s'étend au-delà de la plage possible de votre variable.

Je recommande de penser à cela en termes de régression logistique. Exécutez un modèle de régression logistique avec votre variable de ratio comme résultat et sans prédicteurs. L'interception et son CI vous donneront ce dont vous avez besoin en logits, puis vous pourrez le reconvertir en proportions. Vous pouvez également effectuer vous-même la conversion logistique, calculer l'IC, puis reconvertir à l'échelle d'origine. Mon python est terrible, mais voici comment vous pourriez le faire dans R:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

histogramme des données brutes

data_logits <- log(data/(1-data)) 
hist(data_logits)

histogramme des données transformées logit

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

Voici les limites inférieures et supérieures d'un IC à 99% pour ces données:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

Cela semble être une bonne approche, mais les résultats ne sont pas ce à quoi je m'attendrais intuitivement: les data_logits pour 0.99,0.94,0.94 sont 4.59,2.75,2,75, donnant un intervalle de confiance de [-2.73,9.47]. Transformer ce retour donne [0,061,0,999] - beaucoup plus grand que je ne le pense.
koalo

1
Pour seulement trois observations, vous devez vous attendre à un très grand intervalle de confiance. D'après votre histogramme, il semble que vous ayez beaucoup plus de trois observations --- J'ai supposé que votre exemple avec 0.99,0.94,0.94 était juste pour illustrer. Si votre taille réelle d'échantillon est de trois, je ne recommande pas du tout de calculer des intervalles de confiance (ou des moyens, d'ailleurs).
Rose Hartman

L'histogramme ci-dessus provient du script python pour illustrer mon problème. Je ne peux pas obtenir autant de mesures de l'expérience du monde réel. Du moins pas pour chaque combinaison de paramètres. Je suis d'accord que 3 pourraient être trop petits et peut-être environ 10 seront possibles dans l'évaluation finale, mais certainement pas beaucoup plus. Alors, que dois-je faire pour démontrer que je n'ai pas seulement eu la chance d'obtenir une seule mesure, mais que répéter l'expérience ne donne pas des résultats complètement différents?
koalo

@RoseHartman C'est une belle description claire mais il serait également agréable de voir votre méthode appliquée à l'échantillon de données (n = 5) dans la question.
PM.

@scitamehtam J'ai écrit ma réponse avant que koalo ne fournisse les données d'exemple et ne précise que la taille de l'échantillon serait de 10 observations ou moins. koalo a depuis mis à jour la question d'origine pour inclure des exemples travaillés de chaque méthode de réponse avec les données n = 5, de manière très utile.
Rose Hartman

3

Vous voudrez peut-être essayer de rééchantillonner / amorcer. Examinons le cas simple que vous avez mentionné.

Avec 3 points de données de 0,99, 0,94 et 0,94, vous ne feriez même pas le rééchantillonnage car vous pouvez simplement répertorier les 27 permutations possibles, trouver la moyenne dans chaque cas, puis trier les moyennes.

Si vous créez la liste et prenez les 25 observations du milieu, vous avez un intervalle de confiance 25/27 92,6% de [0,9400, 0,9733]. Si vous souhaitez augmenter la confiance à 26/27 96,3%, vous avez deux choix d'intervalles unilatéraux. Soit [0,9400, 0,9733] ou [0,94, 0,99].26 / 27 =25/27=26/27=

Je suppose que votre sera bien supérieur à 3, vous devrez donc rééchantillonner avec remplacement. Dis que tu fais ça 1000 fois. Trouvez ensuite la moyenne dans chaque cas. De l'ensemble des 1000 moyennes, prenez les 950 valeurs moyennes. Les valeurs les plus basses et les plus élevées de ce sous-ensemble forment l'intervalle de confiance à 95%.n

La question ici: comment créer un intervalle de confiance pour le paramètre d'un test de permutation? donne plus de détails, y compris du code R.


Comme écrit dans un autre commentaire, n ne sera pas "beaucoup plus grand que 3", mais peut-être que n = 10 est possible si nécessaire. Bien que cette approche garantisse que mon intervalle de confiance ne dépassera pas 1,0, elle semble sous-estimer considérablement l'intervalle de confiance donné par d'autres méthodes. En fait, il ne sera jamais plus grand que l'intervalle [min, max].
koalo

À quelle fréquence pensez-vous que la moyenne sera en dehors de [min, max]?
soakley

Probablement rarement, mais cela signifie-t-il également que si l'intervalle [min, max] est suffisamment petit pour prouver le soutien de mes affirmations, je peux oublier l'intervalle de confiance et fournir simplement [min, max]? D'après mon expérience, pour les petits échantillons, l'intervalle de confiance est plutôt grand par rapport à [min, max].
koalo

2

Les intervalles de confiance binomiaux font depuis longtemps l'objet de débats statistiques. Votre problème considère un ratio inférieur à 100%, mais il devient encore plus problématique si nous utilisons 100%. Une façon judicieuse de poser la question est:

Étant donné que le soleil s'est levé sans faute chaque jour au cours des 2 000 dernières années, quelle est la probabilité qu'il se lève demain?

Avec un taux de réussite aussi élevé, nous pensons que les chances sont assez élevées, mais nous ne pouvons pas être sûrs à 100% (l'univers pourrait exploser en premier, ou quelque chose du genre). Donc, même si vous aviez une proportion de 100%, nous ne pouvons pas laisser l'intervalle de confiance s'effondrer à .p=1

Il existe un certain nombre de méthodes pour calculer ces queues. Je recommanderais de consulter Wikipedia pour les mathématiques, ou si vous voulez juste la réponse, recherchez une calculatrice d'intervalle binomial comme celle-ci (qui se trouve également avoir plus d'explications sur les mathématiques derrière).


C'est très proche de ce que je recherche, mais les formules semblent calculer uniquement l'intervalle de confiance pour le résultat d'un seul cycle de mon expérience et non un intervalle de confiance pour la moyenne de plusieurs expériences.
koalo

Peu importe que vous ayez une ou plusieurs exécutions, tant que le dénominateur (100 paquets dans votre exemple) reste le même dans toutes les exécutions. L'exécution de 3 expériences de 100 chacune est mathématiquement la même chose que l'exécution d'une expérience avec 300 paquets, et vous pouvez utiliser les formules binomiales, mais avec n = 300 et non n = 100. Si les dénominateurs ne sont pas égaux, vous devez trouver la moyenne pondérée (pondérée par les n) et le nouveau n sera la somme des n.
Zahava Kor

@ZahavaKor Comme il est trop long pour un commentaire, j'ai ajouté une modification à ma question. Je ne dis pas que c'est faux, mais cela ne correspond pas à ma compréhension actuelle.
koalo

2

Une approche bayésienne:

Trouvez la distribution bêta unique induite par les expériences (et un a priori, disons, le a priori de Jeffreys), puis choisissez le plus petit intervalle pour lequel la densité de s'intègre à votre "confiance" souhaitée. Il est possible qu'il y ait plusieurs solutions, et en fonction de vos antérieurs, le ratio moyen peut ne pas être dans votre intervalle.BBB


+1, même si ce ne serait pas un intervalle de confiance, mais un intervalle crédible. Pouvez-vous nous en dire un peu plus sur la façon de trouver une distribution bêta? On peut commencer avec une Beta antérieure plate (1,1), mais comment la mettre à jour compte tenu d'un ensemble d'observations telles que par exemple {0.985,0.986,0.935,0.890,0.999}? On utilise généralement Beta comme conjugué à Binomial, et là la mise à jour pour chaque observé est facile, mais comment mettre à jour uniquement? pp=n/mp
amoeba dit Reinstate Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.