Puis-je utiliser des tests de permutation pour éviter le problème de comparaison multiple dans le contexte des proportions?

9

J'évalue l'efficacité de 5 méthodes différentes pour prédire un résultat binaire particulier (appelez-les «succès» et «échec»). Les données ressemblent à ceci:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40

Je voudrais effectuer un test parmi ces 5 méthodes pour évaluer la supériorité relative des méthodes. En d'autres termes, je souhaite classer les méthodes par ordre de performance comme méthode 1> méthode 2> ... méthode 5. Pour éviter le problème des comparaisons multiples, je prévois de faire un test de permutation selon les lignes suivantes:

Étape 1: regrouper toutes les données afin que la taille globale de l'échantillon soit 114 avec 37 succès globaux.

Étape 2: Divisez au hasard les données en 5 groupes avec les tailles d'échantillon correspondantes de 28, 19, 24, 21 et 22.

Étape 3: Incrémentez un compteur si l'ordre observé de Percent_Success de l'étape 2 est cohérent avec l'ordre de mes données.

Étape 4: répétez les étapes 2 et 3 plusieurs fois (disons 10000).

Valeur de p souhaitée = valeur finale du compteur / 10000.

Des questions:

La procédure ci-dessus est-elle correcte?
Y a-t-il quelque chose dans R qui me permettrait d'effectuer le test ci-dessus?
Toutes suggestions d'amélioration ou méthodes alternatives seraient utiles.

r multiple-comparisons permutation-test

— sxv
source

@whuber Avez-vous peut-être un code R à partager sur la façon dont vous avez fait cela?

— B_Miner

6

La procédure proposée ne répond pas à votre question. Il estime uniquement la fréquence, sous l'hypothèse nulle, avec laquelle votre ordre observé se produirait. Mais sous ce zéro, à une bonne approximation, toutes les commandes sont également probables, d'où votre calcul produira une valeur proche de 1/5! = environ 0,83%. Cela ne nous dit rien.

Une observation plus évidente: l'ordre, basé sur vos données, est 4> 5> 3> 2> 1. Vos estimations de leurs supériorités relatives sont 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11%, etc.

Supposons maintenant que votre question concerne la mesure dans laquelle l'une des différences de proportions pourrait être due au hasard dans l'hypothèse nulle de non-différence. Vous pouvez en effet évaluer ces dix questions avec un test de permutation. Cependant, à chaque itération, vous devez suivre dix indicateurs de différence relative en proportion, pas un indicateur global de la commande totale. ${5 \choose 2} = 10$

Pour vos données, une simulation avec 100 000 itérations donne les résultats

\begin{array}{ccccc} 5 & 4 & 3 & 2 \\ 1 & 0.02439 & 0.0003 & 0.13233 & 0.29961 \\ 2 & 0.09763 & 0.00374 & 0.29222 \\ 3 & 0.20253 & 0.00884 \\ 4 & 0.08702 \end{array}

$\begin{array}{ccccc} & 5 & 4 & 3 & 2 \cr 1 & 0.02439 & 0.0003 & 0.13233 & 0.29961 \cr 2 & 0.09763 & 0.00374 & 0.29222 & \cr 3 & 0.20253 & 0.00884 & & \cr 4 & 0.08702 & & & \end{array}$

Il est peu probable que les différences de proportions entre la méthode 4 et les méthodes 1, 2 et 3 soient dues au hasard (avec des probabilités estimées à 0,03%, 0,37%, 0,88%, respectivement), mais les autres différences pourraient l'être. Il existe des preuves (p = 2,44%) d'une différence entre les méthodes 1 et 5. Il apparaît donc que vous pouvez être sûr que les différences dans les proportions impliquées dans les relations 4> 3, 4> 2 et 4> 1 sont toutes positives , et il en est très probablement de même pour la différence de 5> 1.

— whuber
source

1

C'est une bien meilleure réponse que la mienne! Je n'ai pas bien lu la question, j'ai bien peur (étape 3 en particulier). J'ai pensé à supprimer ma réponse, mais je maintiens la plus grande interprétabilité d'une approche bayésienne car c'est vraiment le classement qui nous intéresse.

— arrêt

Juste pour m'assurer que je comprends bien - L'indicateur qui suit la différence relative entre les méthodes 4 et 5 sera mis à jour chaque fois que nous verrons une différence supérieure à 0,21.

— sxv

@sxv Oui, c'est vrai. (Eh bien, j'ai en fait utilisé supérieur ou égal. Des égalités se produisent. Je pense que l'inclusion de l'égalité parmi les résultats significatifs est la bonne chose à faire, car nous évaluons la probabilité que des différences aussi grandes ou plus grandes se produisent par hasard.)

— whuber

1

Votre procédure de test de permutation Monte-Carlo suggérée produira une valeur de p pour un test de l'hypothèse nulle que la probabilité de succès est la même pour toutes les méthodes. Mais il y a peu de raisons de faire un test de permutation Monte Carlo ici lorsque le test de permutation exact correspondant est parfaitement réalisable. C'est le test exact de Fisher (enfin, certaines personnes réservent ce nom aux tables 2x2, auquel cas c'est un test exact conditionnel). Je viens de taper vos données dans Stata et -tabi ..., exact- a donné p = .0067 (à titre de comparaison, le test du chi carré de Pearson donne p = .0059). Je suis sûr qu'il y a une fonction équivalente dans R que les gourous R ajouteront bientôt.

Si vous voulez vraiment regarder le classement, vous pouvez être mieux en utilisant une approche bayésienne, car elle peut donner une interprétation simple comme la probabilité que chaque méthode soit vraiment la meilleure, la deuxième meilleure, la troisième meilleure, .... Cela vient au prix de vous obliger à mettre des prieurs sur vos probabilités, bien sûr. L'estimation du maximum de vraisemblance des rangs est simplement l'ordre observé, mais il est difficile de quantifier l'incertitude dans le classement dans un cadre fréquentiste d'une manière qui peut être facilement interprétée, pour autant que je sache.

Je me rends compte que je n'ai pas mentionné plusieurs comparaisons, mais je ne vois tout simplement pas comment cela entre en jeu.

— un arrêt
source

2

Le test exact de Fisher et le chi carré de Pearson testent l'hypothèse nulle selon laquelle les 5 méthodes sont également efficaces contre l'alternative selon laquelle au moins 1 est meilleure que les autres. Les valeurs p m'indiquent que le null est rejeté. Donc, si je veux savoir quelles méthodes sont réellement meilleures que les autres, ne devrai-je pas faire 10 comparaisons par paires?

— sxv