Wojtek J. Krzanowski et David J. Hand ROC Curves for Continuous Data (2009) est une excellente référence pour tout ce qui concerne les courbes ROC. Il recueille un certain nombre de résultats dans ce qui est une base de littérature frustrante, qui utilise souvent une terminologie différente pour discuter du même sujet.
En outre, ce livre propose des commentaires et des comparaisons de méthodes alternatives qui ont été dérivées pour estimer les mêmes quantités, et souligne que certaines méthodes émettent des hypothèses qui peuvent être intenables dans des contextes particuliers. C'est un de ces contextes; d'autres réponses font état de la méthode Hanley & McNeil, qui suppose le modèle binormal pour les distributions de scores, ce qui peut être inapproprié dans les cas où la distribution des scores de classe n'est pas (proche) de la normale. L'hypothèse de scores normalement distribués semble particulièrement inappropriée dans les contextes d' apprentissage automatique modernes , les modèles communs typiques tels que xgboost ont tendance à produire des scores avec une distribution "en baignoire" pour les tâches de classification (c'est-à-dire, les distributions avec des densités élevées dans les extrêmes proches de 0 et 1 ).
Question 1 - AUC
La section 6.3 discute des comparaisons de l'AUC ROC pour deux courbes ROC (pp 113-114). En particulier, je crois comprendre que ces deux modèles sont corrélés, donc les informations sur la façon de calculer sont d'une importance cruciale ici; sinon, votre statistique de test sera biaisée car elle ne tient pas compte de la contribution de la corrélation.r
Dans le cas des courbes ROC non corrélées qui ne sont basées sur aucune hypothèse de distribution paramétrique, les statistiques pour les tets et les intervalles de confiance comparant les ASC peuvent être directement basées sur des estimations et des valeurs de l'ASC et des estimations de leurs écarts types et , comme indiqué dans la section 3.5.1: ^ AUC 2S1S2AUCˆ1AUCˆ2S1S2
Z= AUCˆ1- AUCˆ2S21+ S22-------√
Pour étendre ces tests au cas où les mêmes données sont utilisées pour les deux classificateurs, nous devons tenir compte de la corrélation entre les estimations de l'ASC:
z= AUCˆ1- AUCˆ2S21+ S22- r S1S2-------------√
où est l'estimation de cette corrélation. Hanley et McNeil (1983) ont fait une telle extension, basant leur analyse sur le cas binormal, mais n'ont donné qu'un tableau montrant comment calculer le coefficient de corrélation estimé partir de la corrélation des deux classificateurs de la classe P, et la corrélation de des deux classificateurs de la classe N, en disant que la dérivation mathématique était disponible sur demande. Divers autres auteurs (par exemple Zou, 2001) ont développé des tests basés sur le modèle binormal, en supposant qu'une transformation appropriée peut être trouvée qui transformera simultanément les distributions des scores des classes P et N en normales.r r P r nrrrPrn
DeLong et al (1988) ont profité de l'identité entre l'ASC et la statistique du test de Mann-Whitney, ainsi que des résultats de la théorie des statistiques généralisées dues à Sen (1960), pour dériver une estimation de la corrélation entre les AUC qui ne repose pas sur l'hypothèse binormale. En fait, DeLong et al (1988) ont présenté les résultats suivants pour les comparaisons entre les classificateurs .k ≥ 2Uk ≥ 2
Dans la section 3.5.1, nous avons montré que l'aire sous la courbe empirique ROC était égale à la statistique Mann-Whitney et était donnée parU
sPi,i=1,…,nPPsNj,j=1,…,nNNks r N j ,j=1…nNs r P i ,j=1,…,
A UCˆ= 1nNnP∑i = 1nN∑j = 1nP[ Je( sPj> sNje) + 12je( sPj= sNje) ]
où sont le score des objets de classe et sont les scores des objets de classe dans l'échantillon. Supposons que nous ayons classificateurs, produisant des scores et [J'ai corrigé une erreur d'indexation dans cette partie - Sycorax] et . DéfinirsPje, i = 1 , … , nPPsNj, j = 1 , … , nNNksrNj,j=1…nN^ A U C r , r = 1 , … , ksrPi,j=1,…,nPAUCˆr,r=1,…,k
V r 01 =1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
et
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
ensuite, définissez la matrice avec e élément
et la matrice avec e élément
Alors la matrice de covariance estimée pour le vecteur des aires estimées sous les courbes est
W 10 ( r , s ) w r , s 10 = 1k×kW10(r,s)k×kW01(r,s)w r , s 01 =1
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)( ^ A U C 1,…, ^ A U C k)W=1wr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
(AUCˆ1,…,AUCˆk)W=1nPW10+1nNW01
avec les éléments . Il s'agit d'une généralisation du résultat de la variance estimée d'une AUC estimée unique, également donnée dans la section 3.5.1. Dans le cas de deux classificateurs, la corrélation estimée entre les ASC estimées est donc donnée par qui peut être utilisé dans ci-dessus.wr,srw1,2w1,1w2,2√z
Puisqu'une autre réponse donne les expressions de Hanley et McNeil pour les estimateurs de la variance AUC, je reproduis ici l'estimateur DeLong à partir de p. 68:
L'approche alternative due à DeLong et al (1988) et illustrée par Pepe (2003) donne peut-être une estimation plus simple, et qui introduit le concept supplémentaire utile d'une valeur de placement. La valeur de placement d'un score par rapport à une population spécifiée est la fonction de survivant de cette population à . Cette valeur de placement pour dans la population N est et pour dans la population P est . Les estimations empiriques des valeurs de placement sont données par les proportions évidentes. Ainsi, la valeur de placement de l'observation dans la population P notée , est la proportion de valeurs d'échantillon de P qui dépassentsss1−F(s)s1−G(s)sNisPNisNi , et est la variance des valeurs de placement de chaque observation de N par rapport à la population P ...var(sNPi)
L'estimation de DeLong et al (1988) de la variance de est donnée en fonction de ces variances:
AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
Notez que est la fonction de distribution cumulative des scores dans la population N et est la fonction de distribution cumulative des scores dans la population P. Une façon standard d'estimer et est d'utiliser l' ecdf . Le livre fournit également quelques méthodes alternatives aux estimations ecdf, telles que l'estimation de la densité du noyau, mais cela n'entre pas dans le cadre de cette réponse.FGFG
Les statistiques et peuvent être supposées être des écarts normaux normaux, et les tests statistiques de l'hypothèse nulle se déroulent de la manière habituelle. (Voir aussi: test d'hypothèse )Zz
Voici un aperçu simplifié de haut niveau du fonctionnement du test d'hypothèse:
Tester, selon vos mots, "si un classificateur est significativement meilleur que l'autre" peut être reformulé comme testant l'hypothèse nulle selon laquelle les deux modèles ont des AUC statistiquement égales par rapport à l'hypothèse alternative selon laquelle les statistiques sont inégales.
Il s'agit d'un test bilatéral.
Nous rejetons l'hypothèse nulle si la statistique de test se trouve dans la région critique de la distribution de référence, qui est une distribution normale standard dans ce cas.
La taille de la région critique dépend du niveau du test. Pour un niveau de signification de 95%, la statistique de test tombe dans la région critique si ou . (Ce sont les quantiles et de la distribution normale standard.) Sinon, vous ne parvenez pas à rejeter l'hypothèse nulle et les deux modèles sont statistiquement liés.αz>1.96z<−1.96α/21−α/2
Question 1 - Sensibilité et spécificité
La stratégie générale pour comparer la sensibilité et la spécificité consiste à observer que ces deux statistiques équivalent à effectuer une inférence statistique sur les proportions, et c'est un problème standard et bien étudié. Plus précisément, la sensibilité est la proportion de la population P qui a un score supérieur à un certain seuil , et de même pour la spécificité par rapport à la population N:
t
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
Le principal point d'achoppement est de développer le test approprié étant donné que les deux proportions d'échantillon seront corrélées (car vous avez appliqué deux modèles aux mêmes données de test). Cette question est abordée à la p. 111.
En ce qui concerne des tests particuliers, plusieurs statistiques récapitulatives se réduisent à des proportions pour chaque courbe, de sorte que des méthodes standard de comparaison des proportions peuvent être utilisées. Par exemple, la valeur de pour fixe est une proportion, tout comme le taux de classification erronée pour le seuil fixe . On peut ainsi comparer des courbes, à l'aide de ces mesures, au moyen de tests standards pour comparer des proportions. Par exemple, dans le cas non apparié, nous pouvons utiliser la statistique de test , où est le véritable taux positif pour la courbe comme point en question, et est le somme des variances de et ...tpfpt(tp1−tp2)/s12tpiis212tp1tp2
Pour le cas apparié, cependant, on peut dériver un ajustement qui permet la covariance entre et , mais une alternative est d'utiliser le test de McNemar pour les proportions corrélées (Marascuilo et McSweeney, 1977).tp1tp2
Le test mcnemar est approprié lorsque vous avez sujets, et chaque sujet est testé deux fois, une fois pour chacun des deux résultats dichotomiques. Compte tenu des définitions de la sensibilité et de la spécificité, il devrait être évident que c'est exactement le test que nous recherchons, puisque vous avez appliqué deux modèles aux mêmes données de test et calculé la sensibilité et la spécificité à un certain seuil.N
Le test de McNemar utilise une statistique différente, mais une hypothèse nulle et alternative similaire. Par exemple, compte tenu de la sensibilité , l'hypothèse nulle est que la proportion , et l'alternative est . En réorganisant les proportions pour en faire des nombres bruts , nous pouvons écrire une table de contingence
où le nombre de cellules est donné par comptage les vrais positifs et faux négatifs selon chaque modèletp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
et nous avons la statistique de test
qui est distribuée comme une distribution chi carré avec 1 degré de liberté. Avec un niveau , l'hypothèse nulle est rejetée pour .
M=(b−c)2b+c
χ21α=95%M>3.841459
Pour la spécificité , vous pouvez utiliser la même procédure, sauf que vous remplacez le par le .srPisrNj
question 2
Il semble qu'il suffit de fusionner les résultats en faisant la moyenne des valeurs de prédiction pour chaque répondant, de sorte que pour chaque modèle, vous avez 1 vecteur de 100 valeurs prédites moyennes. Calculez ensuite l'AUC ROC, les statistiques de sensibilité et de spécificité comme d'habitude, comme si les modèles originaux n'existaient pas. Cela reflète une stratégie de modélisation qui traite chacun des modèles des 5 répondants comme faisant partie d'un «comité» de modèles, un peu comme un ensemble.