Sur le test exact de Fisher: Quel test aurait été approprié si la dame n'avait pas connu le nombre de tasses de lait en premier?

Dans la célèbre expérience de dégustation de thé par RA Fisher, la dame est informée du nombre de tasses de lait d'abord / de thé d'abord (4 pour chacune des 8 tasses). Cela respecte l'hypothèse totale marginale fixe du test exact de Fisher.

J'imaginais faire ce test avec mon ami, mais la pensée m'a frappé. Si la dame peut vraiment faire la différence entre les tasses de lait d'abord et les tasses de thé d'abord, elle devrait être en mesure de déterminer les totaux marginaux des tasses de lait d'abord / thé d'abord ainsi que ceux qui sont lesquels.

Voici donc la question: quel test aurait pu être utilisé si RA Fisher n'avait pas informé la dame du nombre total de tasses de lait d'abord et de thé d'abord?

— Alby
source

Certains diront que même si la deuxième marge n'est pas fixée par conception, elle contient peu d'informations sur la capacité de la femme à discriminer (c'est-à-dire qu'elle est approximativement accessoire) et devrait être conditionnée. Le test inconditionnel exact (proposé pour la première fois par Barnard je pense) est plus compliqué car il faut calculer la valeur p maximale sur toutes les valeurs possibles d'un paramètre de nuisance.

— Scortchi - Réintégrer Monica

En fait, le test de Barnard a une page Wikipedia.

— Scortchi - Réintégrer Monica

@Scortchi que dire de plus? Je n'y ajouterais rien (et je n'arriverais pas à le dire aussi clairement et succinctement). Dans vos deux commentaires, je pense que vous avez une bonne réponse.

— Glen_b -Reinstate Monica

Il y a une valeur de discussion regardant (entre papier et discutants) Yates, F. (1984) « Tests d'importance pour 2 × 2 tableaux de contingence », Journal de la Royal Statistical Society. Série A (générale) , vol. 147, n ° 3, pp. 426-463.

— Glen_b -Reinstate Monica

Ce n'est qu'en moyenne, plus de 4 tasses de thé avec du lait et 4 sans, que nous pouvons dire qu'elle a une probabilité de de deviner correctement; & la distribution de son total de suppositions correctes est plus concentrée environ 4 que si elle suivait une distribution binomiale. Mais si elle devine "lait" avec une probabilité de , alors elle devinera correctement avec une probabilité de quand il y a du lait dans le thé et quand il n'y en a pas, et la distribution de son total de suppositions correctes suit une distribution binomiale. Il y a donc un paramètre de nuisance à considérer, ...

\frac{1}{2}

$\frac{1}{2}$

\frac{1}{2}

$\frac{1}{2}$

\frac{1}{2}

$\frac{1}{2}$

— Scortchi - Réintégrer Monica

Réponses:

Certains diront que même si la deuxième marge n'est pas fixée par la conception, elle contient peu d'informations sur la capacité de la femme à discriminer (c'est-à-dire qu'elle est approximativement accessoire) et devrait être conditionnée. Le test inconditionnel exact (proposé pour la première fois par Barnard ) est plus compliqué car vous devez calculer la valeur p maximale sur toutes les valeurs possibles d'un paramètre de nuisance, à savoir la probabilité de Bernoulli commune sous l'hypothèse nulle. Plus récemment, il a été proposé de maximiser la valeur de p sur un intervalle de confiance pour le paramètre de nuisance: voir Berger (1996), «More Powerful Tests from Confidence Interval p Values», The American Statistician , 50 , 4; des tests exacts ayant la bonne taille peuvent être construits en utilisant cette idée.

Le test exact de Fisher se présente également comme un test de randomisation, au sens d'Edgington: une affectation aléatoire des traitements expérimentaux permet d'utiliser la distribution de la statistique de test sur les permutations de ces affectations pour tester l'hypothèse nulle. Dans cette approche, les déterminations de la dame sont considérées comme fixes (et les totaux marginaux des tasses de lait d'abord et de thé d'abord sont bien sûr conservés par permutation).

— Scortchi - Réintégrer Monica
source

Peut Barnard::barnardw.test()être utilisé ici? Quelle différence de complexité de calcul peut-on attendre dans la pratique?

— krlmlr

Je ne connais pas ce package, mais la page d'aide que vous liez renvoie exactement au test dont je parlais. Voir aussi Exact. Quant à la complexité de calcul, je ne sais pas - cela va dépendre de l'algorithme de maximisation utilisé.

— Scortchi - Réintégrer Monica

Aujourd'hui, j'ai lu les premiers chapitres de "The Design of Experiments" de RA Fisher, et l'un des paragraphes m'a fait prendre conscience de la faille fondamentale de ma question.

Autrement dit, même si la dame peut vraiment faire la différence entre les tasses de lait d'abord et de thé d'abord , je ne peux jamais prouver qu'elle a cette capacité "par une quantité limitée d'expérimentation". Pour cette raison, en tant qu'expérimentatrice, je devrais partir de l'hypothèse qu'elle n'a pas de capacité (hypothèse nulle) et essayer de désapprouver cela. Et la conception originale de l'expérience (test exact de Fisher) est une procédure suffisante, efficace et justifiable pour ce faire.

Voici l'extrait de "The Design of Experiments" de RA Fisher:

On pourrait faire valoir que si une expérience peut réfuter l'hypothèse selon laquelle le sujet ne possède aucune discrimination sensorielle entre deux sortes d'objets différents, il doit donc être en mesure de prouver l'hypothèse inverse, qu'il peut faire une telle discrimination. Mais cette dernière hypothèse, aussi raisonnable ou vraie qu'elle soit, n'est pas éligible en tant qu'hypothèse nulle à tester par l'expérience, car elle est inexacte. Si l'on affirmait que le sujet ne se tromperait jamais dans ses jugements, nous retenons encore une hypothèse exacte, et il est facile de voir que cette hypothèse pourrait être réfutée par un seul échec, mais ne pourrait jamais être prouvée par une quantité finie d'expérimentation .

— Alby
source

Le test de Barnard est utilisé lorsque le paramètre de nuisance est inconnu sous l'hypothèse nulle.

Cependant, dans le test de dégustation de la femme, vous pourriez faire valoir que le paramètre de nuisance peut être fixé à 0,5 sous l'hypothèse nulle (la femme non informée a une probabilité de 50% de deviner correctement une tasse).

Ensuite, le nombre de suppositions correctes, dans l'hypothèse nulle, devient une distribution binomiale: deviner 8 tasses avec une probabilité de 50% pour chaque tasse.

Dans d'autres cas, vous ne pouvez pas avoir cette probabilité triviale de 50% pour l'hypothèse nulle. Et sans marges fixes, vous ne savez peut-être pas quelle devrait être cette probabilité. Dans ce cas, vous avez besoin du test de Barnard.

Même si vous effectuiez le test de Barnard sur le test de dégustation de thé pour femme, cela deviendrait de toute façon 50% (si le résultat est toutes les suppositions correctes) car le paramètre de nuisance avec la valeur p la plus élevée est 0,5 et entraînerait le test binomial trivial ( il s'agit en fait de la combinaison de deux tests binomiaux, l'un pour les quatre premières tasses de lait et l'autre pour les quatre premières tasses de thé).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Voici comment cela se passerait pour un résultat plus compliqué (si toutes les suppositions ne sont pas correctes, par exemple 2 contre 4), alors le décompte de ce qui est et de ce qui n'est pas extrême devient un peu plus difficile

(Notez également que le test de Barnard utilise, dans le cas d'un résultat 4-2 un paramètre de nuisance p = 0,686 dont vous pourriez dire qu'il n'est pas correct, la valeur de p pour une probabilité de 50% de répondre au `` thé d'abord '' serait de 0,08203125. Cela devient encore plus petit lorsque vous considérez une région différente, au lieu de celle basée sur les statistiques de Wald, bien que la définition de la région ne soit pas si facile )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)

— Sextus Empiricus
source