Relation entre les coefficients de corrélation phi, Matthews et Pearson

13

Les coefficients de corrélation phi et Matthews sont-ils le même concept? Comment sont-ils liés ou équivalents au coefficient de corrélation de Pearson pour deux variables binaires? Je suppose que les valeurs binaires sont 0 et 1.

La corrélation de Pearson entre deux variables aléatoires de Bernoulli et est: $x$ $y$

ρ = \frac{E [(x - E [x]) (y - E [y])]}{\sqrt{Var [x] Var [y]}} = \frac{E [x y] - E [x] E [y]}{\sqrt{Var [x] Var [y]}} = \frac{n_{11} n - n_{1 ∙} n_{∙ 1}}{\sqrt{n_{0 ∙} n_{1 ∙} n_{∙ 0} n_{∙ 1}}}

$\rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}}$

où

E [x] = \frac{n_{1 ∙}}{n} Var [x] = \frac{n_{0 ∙} n_{1 ∙}}{n^{2}} E [y] = \frac{n_{∙ 1}}{n} Var [y] = \frac{n_{∙ 0} n_{∙ 1}}{n^{2}} E [x y] = \frac{n_{11}}{n}

$\mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] = \frac{n_{\bullet 1}}{n} \quad \text{Var}[y] = \frac{n_{\bullet 0}n_{\bullet 1}}{n^2} \quad \mathbb{E}[xy] = \frac{n_{11}}{n}$

Coefficient Phi de Wikipedia:

En statistique, le coefficient phi (également appelé "coefficient de contingence carré moyen" et noté ou ) est une mesure d'association pour deux variables binaires introduites par Karl Pearson. Cette mesure est similaire au coefficient de corrélation de Pearson dans son interprétation. En fait, un coefficient de corrélation de Pearson estimé pour deux variables binaires retournera le coefficient phi ... $\phi$ $r_\phi$

Si nous avons un tableau 2 × 2 pour deux variables aléatoires et $x$ $y$

Le coefficient phi qui décrit l'association de et est $x$ $y$
$ϕ = \frac{n_{11} n_{00} - n_{10} n_{01}}{\sqrt{n_{1 ∙} n_{0 ∙} n_{∙ 0} n_{∙ 1}}}$ $\phi = \frac{n_{11}n_{00} - n_{10}n_{01}}{\sqrt{n_{1\bullet}n_{0\bullet}n_{\bullet0}n_{\bullet1}}}$

Coefficient de corrélation de Matthews de Wikipedia:

Le coefficient de corrélation de Matthews (MCC) peut être calculé directement à partir de la matrice de confusion en utilisant la formule:
$MCC = \frac{T P \times T N - F P \times F N}{\sqrt{(T P + F P) (T P + F N) (T N + F P) (T N + F N)}}$ $\text{MCC} = \frac{ TP \times TN - FP \times FN } {\sqrt{ (TP + FP) (TP + FN) (TN + FP) (TN + FN) } }$
Dans cette équation, TP est le nombre de vrais positifs, TN le nombre de vrais négatifs, FP le nombre de faux positifs et FN le nombre de faux négatifs. Si l'une des quatre sommes du dénominateur est nulle, le dénominateur peut être arbitrairement fixé à un; cela se traduit par un coefficient de corrélation de Matthew de zéro, qui peut être montré comme la valeur limite correcte.

— Tim
source

14

Oui, ils sont pareils. Le coefficient de corrélation de Matthews n'est qu'une application particulière du coefficient de corrélation de Pearson à une table de confusion.

Un tableau de contingence n'est qu'un résumé des données sous-jacentes. Vous pouvez le reconvertir à partir des chiffres indiqués dans le tableau de contingence en une ligne par observation.

Prenons l'exemple de la matrice de confusion utilisée dans l'article de Wikipedia avec 5 vrais positifs, 17 vrais négatifs, 2 faux positifs et 3 faux négatifs

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

— Peter Ellis
source

Merci, Peter! Mathématiquement, pourquoi phi et Mathew sont-ils équivalents à Pearson pour deux variables aléatoires binaires?

— Tim

Si vous prenez la définition de la corrélation de Pearson et la manipulez de manière à ce qu'elle se réfère aux nombres plutôt qu'aux sommes des différences entre les observations individuelles et les moyennes, vous obtenez la formule de Matthews. Je ne l'ai pas fait, mais cela doit être assez simple.

— Peter Ellis

2

Tout d'abord, il y avait une erreur de frappe dans la question: n'est pas mais plutôt $\mathbb{E}[xy]$ $\displaystyle \frac{n_{\bullet 1}n_{1\bullet}}{n^2}$

\frac{n_{11}}{n} \times 1 \times 1 + \frac{n_{10}}{n} \times 1 \times 0 + \frac{n_{01}}{n} \times 0 \times 1 + \frac{n_{00}}{n} \times 0 \times 0 = \frac{n_{11}}{n}

$\frac{n_{11}}{n} \times 1 \times 1 + \frac{n_{10}}{n}\times 1 \times 0 + \frac{n_{01}}{n} \times 0 \times 1 + \frac{n_{00}}{n} \times 0 \times 0 = \frac{n_{11}}{n}$

Deuxièmement, la clé pour montrer que est $\rho = \phi$

n_{11} n - n_{1 ∙} n_{∙ 1} = n_{11} (n_{01} + n_{10} + n_{11} + n_{00}) - (n_{11} + n_{10}) (n_{11} + n_{01}) = n_{11} n_{00} - n_{10} n_{01}

$n_{11} n - n_{1\bullet} n_{\bullet 1} = n_{11} (n_{01} + n_{10} + n_{11} + n_{00}) - (n_{11} + n_{10}) (n_{11} + n_{01}) \\ = n_{11} n_{00} - n_{10} n_{01}$

— ryan tt
source