d prime avec 100% de probabilité de réussite et 0% de probabilité de fausse alarme

10

Je voudrais calculer d prime pour une tâche de mémoire qui implique la détection d'anciens et de nouveaux éléments. Le problème que j'ai est que certains des sujets ont un taux de succès de 1 et / ou un taux de fausses alertes de 0, ce qui rend les probabilités 100% et 0%, respectivement.

La formule de d prime est d' = z(H) - z(F), où z(H)et z(F)sont les transformées z du taux de succès et de la fausse alarme, respectivement.

Pour calculer la transformation z, j'utilise la fonction Excel NORMSINV (c'est-à-dire z(H)=NORMSINV(hit rate)). Cependant, si le taux de succès ou le taux de fausses alarmes est respectivement de 1 ou 0, la fonction renvoie une erreur. En effet, si je comprends bien, la transformation z indique l'aire sous la courbe ROC, qui ne permet pas mathématiquement une probabilité de 100% ou 0%. Dans ce cas, je ne sais pas comment calculer d 'pour les sujets avec des performances de plafond.

Un site Web suggère de remplacer les taux 1 et 0 par 1 - 1 / (2N) et 1 / 2N par N étant le nombre maximal de hits et de fausses alarmes. Un autre site Web dit "ni H ni F ne peut être 0 ou 1 (si c'est le cas, ajustez légèrement vers le haut ou vers le bas)". Cela semble arbitraire. Quelqu'un a-t-il une opinion à ce sujet ou voudrait-il me diriger vers les bonnes ressources?

— A.Rainer
source

13

Stanislaw et Todorov (1999) en discutent bien sous le titre Taux de réussite et de fausse alarme de zéro ou un .

Ils discutent des avantages et des inconvénients de plusieurs méthodes pour faire face à ces valeurs extrêmes, notamment:

Utiliser une statistique non paramétrique telle que au lieu de (Craig, 1979) $A'$ $d'$
Agréger les données de plusieurs sujets avant de calculer la statistique (Macmillan et Kaplan, 1985)
ajouter 0,5 au nombre de coups et au nombre de fausses alarmes, et ajouter 1 au nombre d'essais de signal et au nombre d'essais de bruit; surnommé l' approche loglinear (Hautus, 1995)
Ajustez uniquement les valeurs extrêmes en remplaçant les taux de 0 par et les taux de 1 par où est le nombre d'essais de signal ou de bruit (Macmillan et Kaplan, 1985) $0.5/n$ $(n-0.5)/n$ $n$

Le choix vous appartient en fin de compte. Personnellement, je préfère la troisième approche. La première approche a l'inconvénient que est moins interprétable pour vos lecteurs qui sont beaucoup plus familiers avec . La deuxième approche peut ne pas convenir si vous êtes intéressé par le comportement d'un seul sujet. La quatrième approche est biaisée car vous ne traitez pas vos points de données de manière égale. $A'$ $d'$

— Jeff
source

MacMillan & Kaplan est une référence populaire mais je crois qu'il y a un auteur grec ou russe qui les précède pour le même conseil ... le nom est trop long pour que je m'en souvienne. Mon regard rapide sur S&T est qu'il n'est pas très complet mais cela me rappelle que je me suis probablement trompé en ne mentionnant pas A '. Bien sûr, une fois que vous avez fait cela, vous devez expliquer ce que cela signifie vraiment passer à non paramétrique.

— John

6

Les deux sites suggèrent la même chose, mais l'un propose un moyen de sélectionner systématiquement le montant de l'ajustement. Cela a été attribué à un certain nombre de personnes, mais je ne pense pas que quiconque sache qui l'a vraiment proposé en premier. Différents domaines ont un livre ou un auteur séminal différent sur la détection du signal. Ce qui est important, c'est que la méthode que vous choisissez soit raisonnable.

La seule méthode que vous avez publiée implique généralement que si vous disposiez d'un ensemble d'éléments beaucoup plus important (2N), vous auriez pu détecter au moins une erreur. Si c'est une façon raisonnable de penser au problème, vous avez terminé. Je doute que ce soit pour un test de mémoire. À l'avenir, vous voudrez peut-être augmenter N pour vous assurer que cela est beaucoup moins susceptible de se produire. Néanmoins, la méthode est récupérable si vous la considérez différemment. Vous ajustez sur une moyenne hypothétique de deux exécutions du même nombre d'éléments de mémoire. Dans ce cas, vous dites que dans une autre exécution de l'expérience (en supposant que de nouveaux éléments ou ils ont oublié tous les anciens), il y aurait eu une erreur. Ou, plus simplement, vous sélectionnez simplement à mi-chemin entre le score imparfait le plus élevé que vous pouvez mesurer et un score parfait.

C'est un problème sans solution universelle simple. La première question que vous devez vous poser est de savoir si vous pensez, dans votre cas, que vous avez une véritable classification parfaite. Dans ce cas, vos données sont vos données. Sinon, vous croyez que c'est juste la variabilité de l'échantillon qui fait que les hits sont à 100%. Une fois que vous avez conclu que c'est le cas, vous devez envisager des moyens raisonnables de générer une estimation de ce que vous pensez être. Et donc vous devez vous demander ce que c'est réellement.

Le moyen le plus simple de déterminer ce qui devrait être est de regarder les autres données dans cette même condition. Vous pourriez peut-être estimer que la précision de ce participant est à mi-chemin entre la prochaine meilleure valeur que vous avez et 100% (ce qui peut s'avérer être exactement la même que la valeur que vous avez trouvée). Ou, cela pourrait être une très petite quantité supérieure. Ou il pourrait simplement être égal aux meilleures valeurs. Vous devez sélectionner ce que vous croyez être la meilleure réponse en fonction de vos données. Une question plus spécifique publiée pourrait vous aider ici.

Vous devez essayer de vous assurer que cela a le moins d'impact possible sur le critère. Dans votre cas, un ajustement des hits et des FA entraînera un décalage du critère. Cependant, si vous ajustez les hits quand disons, FA = 0,2, alors vous devez faire attention à la façon dont cet ajustement affecterait l'interprétation du critère. Dans ce cas, vous êtes en quelque sorte obligé de vous assurer que les hits sont très élevés.

— John
source

Merci pour votre point de vue et votre justification, John. Ça aide vraiment. Je dois ajouter que l'augmentation du nombre de N est une bonne solution mais notre tâche se fait à l'intérieur du scanner IRMf et nous sommes limités par le nombre d'essais que nous pouvons faire faire aux sujets avant qu'ils ne bougent et ne ruinent nos données avec le mouvement.

— A.Rainer

"Vous pourriez peut-être estimer que la précision pour ce participant est à mi-chemin entre la prochaine meilleure valeur que vous avez et 100% (ce qui peut s'avérer être exactement la même que la valeur que vous avez trouvée)" est un bon conseil. Cela préservera l'ordre du classement des performances du sujet.

— A.Rainer