Un modèle psychologiquement significatif peut nous guider.
Dérivation d'un test utile
Toute variation dans les observations peut être attribuée à des variations entre les sujets. On pourrait imaginer que chaque sujet, à un certain niveau, arrive avec une valeur numérique pour le résultat de la méthode 1 et une valeur numérique pour le résultat de la méthode 2. Ils comparent ensuite ces résultats. Si les deux sont suffisamment différents, le sujet fait un choix définitif, mais sinon le sujet déclare une égalité. (Cela est lié à l'existence d'un seuil de discrimination .)
La variation entre les sujets entraîne une variation des observations expérimentales. Il y aura une certaine chance de favoriser la méthode 1, une certaine chance de favoriser la méthode 2 et une certaine chance d'égalité.π1π2π0
Il est juste de supposer que le sujet répond indépendamment les uns des autres. En conséquence, la probabilité d'observer sujets favorisant la méthode 1, sujets favorisant la méthode 2 et sujets donnant des liens est multinomiale . Mis à part une constante de normalisation (non pertinente), le logarithme de la probabilité est égal àn1n2n0
n1log(π1)+n2log(π2)+n0log(π0).
Étant donné que , cela est maximisé lorsque où est le nombre de sujets.π0+π1+π2=0πi=ni/nn=n0+n1+n2
Pour tester l'hypothèse nulle selon laquelle les deux méthodes sont considérées comme également bonnes, nous maximisons la probabilité soumise à la restriction impliquée par cette hypothèse. Compte tenu du modèle psychologique et de son invocation d'un seuil hypothétique, nous devrons vivre avec la possibilité que (le risque de liens) soit non nul. La seule façon de détecter une tendance à privilégier un modèle par rapport à l'autre réside dans la manière dont et sont affectés: si le modèle 1 est favorisé, alors devrait augmenter et diminuer, et vice versa . En supposant que la variation est symétrique , la situation sans préférence se produit lorsqueπ0π1π2π1π2π1=π2 . (La taille de nous dira quelque chose sur le seuil - sur la capacité discriminatoire - mais ne donne autrement aucune information sur les préférences.)π0
Lorsqu'il n'y a pas de modèle préféré, la probabilité maximale se produit lorsque et, encore une fois, . En branchant les deux solutions précédentes, nous calculons la variation des probabilités maximales, :π1=π2=n1+n22/nπ0=n0/nG
G=(n1logn1n+n2logn2n+n0logn0n)−(n1log(n1+n2)/2n+n2log(n1+n2)/2n+n0logn0n)=n1log2n1n1+n2+n2log2n2n1+n2.
La taille de cette valeur - qui ne peut pas être négative - nous indique la crédibilité de l'hypothèse nulle: lorsque est petit, les données sont "expliquées" presque aussi bien avec l'hypothèse nulle (restrictive) qu'elles le sont en général; lorsque la valeur est grande, l'hypothèse nulle est moins crédible.G
La théorie d'estimation du maximum de vraisemblance (asymptotique) dit qu'un seuil raisonnable pour ce changement est la moitié du quantile d'une distribution chi carré avec un degré de liberté (en raison de la restriction unique imposée par l'hypothèse nulle). Comme d'habitude, est la taille de ce test, souvent considéré comme 5% ( ) ou 1% ( ). Les quantiles correspondants sont et .1−απ1=π2α0.050.013.8414596.634897
Exemple
Supposons que sur sujets, privilégie la méthode 1 et privilégie la méthode 2. Cela implique qu'il y a liens. La probabilité est alors maximisée pour et , où elle a une valeur de . Dans l'hypothèse nulle, la probabilité est plutôt maximisée pour , où sa valeur n'est que de . La différence de est inférieure à la moitié du seuil 5% de . Nous faisons doncn=20n1=3n2=9n0=20−3−9=8π1=3/20=0.15π2=9/20=0.45−20.208…π1=π2=6/20=0.30−21.778G=−20.208−(−21.778)=1.57α=3.84pas rejeter l'hypothèse nulle.
À propos des liens et des tests alternatifs
En regardant la formule de , notez que le nombre de liens ( ) n'apparaît pas . Dans l'exemple, si nous avions observé à la place sujets et parmi eux favorisaient la méthode 1, favorisaient la méthode 2, et les restants étaient liés, le résultat serait le même.Gn0n=10039100−3−9=88
Fractionner les liens et attribuer la moitié à la méthode 1 et la moitié à la méthode 2 est intuitivement raisonnable, mais il en résulte un test moins puissant . Par exemple, soit et . Considérons deux cas:n1=5n2=15
n=20 sujets, il y avait donc liens. Le test de vraisemblance maximale rejetterait la valeur nulle pour toute valeur de supérieure à . Un autre test fréquemment utilisé dans cette situation (car il n'y a pas de liens) est un test binomial; il rejetterait la valeur nulle pour toute valeur de supérieure à . Les deux tests donneraient donc généralement les mêmes résultats, car ces valeurs critiques sont assez proches.n0=0α0.02217α0.02660
n=100 sujets, donc il y avait liens. Le test de vraisemblance maximale rejetterait toujours la valeur nulle pour toute valeur de supérieure à . Le test binomial rejetterait le null uniquement pour toute valeur de supérieure à . Les deux tests donnent des résultats entièrement différents. En particulier, les liens ont affaibli la capacité du test binomial à distinguer une différence que la théorie du maximum de vraisemblance suggère comme réelle.n0=80α0.02217α0.319780
Enfin, considérons l' approche de table de contingence3×1 suggérée dans une autre réponse. Considérons sujets avec favorisant la méthode 1, privilégiant la méthode 2 et avec des liens. La "table" n'est que le vecteur . Sa statistique chi carré est de avec deux degrés de liberté. La valeur de p est de , ce qui amènerait la plupart des gens à conclure qu'il n'y a pas de différence entre les méthodes. Le résultat du maximum de vraisemblance donne plutôt une valeur de p de , ce qui rejetterait cette conclusion au niveau 5%.n=20n1=3n2=10n0=7(n0,n1,n2)=(7,3,10)3.70.15720.04614α=
Avec sujets, supposons que seule méthode préférée 1, seulement la méthode 2 et liens. Intuitivement, il y a très peu de preuves qu'une de ces méthodes a tendance à être privilégiée. Mais cette fois, la statistique du chi carré de clairement, incontestablement (mais à tort) qu'il y a une différence (la valeur p est inférieure à ).n=1001297182.4210−15
Dans les deux situations, l'approche du chi carré obtient une réponse totalement fausse: dans le premier cas, elle n'a pas le pouvoir de détecter une différence substantielle tandis que dans le second cas (avec beaucoup de liens), elle est extrêmement confiante quant à une différence sans conséquence. Le problème n'est pas que le test du chi carré est mauvais; le problème est qu'il teste une hypothèse différente: savoir si . Selon notre modèle conceptuel, cette hypothèse est un non-sens psychologique, car elle confond les informations sur les préférences (à savoir, et ) avec des informations sur les seuils de discrimination (à savoir, ). π1=π2=π0π1π2π0Il s'agit d'une belle démonstration de la nécessité d'utiliser un contexte de recherche et des connaissances en la matière (bien que simplifiées) pour sélectionner un test statistique.