Dans ma réponse, je fournis de nombreux liens vers des documents de référence pour économiser de l'espace ici. Je vais écrire ma réponse en prenant les informations dans les liens comme indiqué.
Je pense qu'une approche bayésienne est un ajustement naturel à ce problème, d'autant plus que vous ne cherchez qu'à vous convaincre. C'est un peu compliqué d'utiliser des intervalles de confiance pour répondre à la question qui vous tient vraiment à cœur, à savoir à quel point est-il plausible que et étant donné l'échantillon de la distribution? L'approche bayésienne vous permet d'aborder cette question directement.Q7<Q6Q7<Q8zje
Fonction de vraisemblance
Soit la fréquence observée du résultat entier dans votre échantillon et Soit la taille de l'échantillon. La fonction de vraisemblance est proportionnelle à la distribution multinomiale . Il a la formeFkkN
L (z0, . . .z8;F0, . . .F8) =∏8i = 0zjeNFje .
Distribution préalable
La distribution de Dirichlet est le choix naturel pour la distribution a priori, car c'est l'a priori conjugué pour la vraisemblance multinomiale. Il a la forme
p (z0, . . .z8;α0, . . . ,α8) ∝∏8i = 0zjeαje- 1
Cet a priori a neuf hyperparamètres (les valeurs ), et ils sont un peu pénibles à gérer. Dans ce contexte de «grand échantillon», tout choix raisonnable de valeurs hyperparamétriques aura une influence négligeable sur le résultat, mais je pense que cela vaut la peine de consacrer un peu d'effort à sélectionner des valeurs sensibles.αje
Voici comment je recommande de régler les hyperparamètres. Tout d'abord, notez que sous cette distribution . Ensuite, notez que la distribution d'entropie maximale la plus simple sur les naturels est la distribution géométrique . Alors misE (zje) =αje∑8i = 0αje
αi + 1= rαje=rjeα0,0 < r < 1 ,
α0= A (1 - r1 -r9) .
Alors , donc la distribution de est centrée sur une distribution géométrique (tronquée). De plus, , donc la valeur de contrôle la dispersion autour de cette attente mais n'a aucun effet sur l'attente lui-même.E (zje) =rje(1 - r1 -r9)zjeV a r (zje) ∝1( A + 1 )UNE
Cette spécification réduit le nombre de hyperparam'etres des neuf valeurs à tout et . Je vais différer la discussion des valeurs spécifiques de et pour l'instant.αjerUNErUNE
Probabilité postérieure de la proposition d'intérêt
La distribution postérieure des est la distribution de Dirichlet suivante:zje
p (z0, . . .z8|F0, . . . ,F8) ∝∏8i = 0zjeαje+ NFje- 1.
Soit . La probabilité postérieure qui vous intéresse estY = {z0, . . .z8|Q7<Q6 et Q7<Q8}
Pr (Q7<Q6 et Q7<Q8|F0, . . . ,F8) ∝∫Oui∏8i = 0zjeαje+ NFje- 1rézje.
Cette intégrale est intraitable, mais vous pouvez calculer la probabilité d'intérêt numériquement en utilisant l'algorithme de Monte Carlo suivant.
Pour de à ,j1J
Échantillonnez un ensemble de valeurs partir de leur distribution postérieure.zje
Utilisez les valeurs échantillonnées pour calculer où est la fonction d'indicateur.yj= Je(Q7<Q6) Je(Q7<Q8)je( ⋅ )
Alors .Pr (Q7<Q6 et Q7<Q8|F0, . . . ,F8) ≈∑Jj = 0yjJ
La précision de l'approximation de Monte Carlo va comme : vous donnera au moins deux décimales de précision 19 fois sur 20, vous obtiendra au moins trois décimales de précision 19 fois sur 20, etc.J--√J=dix4J=dix6
Et si votre probabilité d'intérêt postérieure n'est pas proche de 0 ou 1, il suffit d'échantillonner plus de données, de rincer et de répéter.
Hyperparamètres antérieurs, deuxième partie
L'exposant de dans l'expression de la densité postérieure estzje
αje+ NFje- 1 = Arje(1 - r1 -r9) +NFje- 1 = A E (zje) + NFje- 1
On peut voir que l'hyperparamètre joue le même rôle dans la distribution a priori que joue dans la vraisemblance - c'est une sorte de "taille d'échantillon antérieure". Pour garantir que le prieur a une influence négligeable sur la conclusion, il suffit de choisir une valeur de telle que ; par exemple, .UNENUNEUNE ≪ NUNE = 1
Pour définir , notez que vous pouvez calculer la probabilité antérieure de la proposition utilisant le même algorithme de Monte Carlo décrit ci-dessus mais avec la distribution antérieure à la place de la distribution postérieure à l'étape 1 de la boucle. Essayez de trouver une valeur de qui donne une probabilité antérieure de 0,5 (ou moins, si vous pensez que c'est plus raisonnable).rQ7<Q6 et Q7<Q8r