Comment exprimer les cellules d'un tableau 2x2 en termes de coefficient phi et de probabilités marginales

Considérons un tableau de fréquences 2x2 typique (montré dans cette image): Notation: La variable de ligne est notée R et prend les valeurs 0 ou 1; la variable de colonne est notée C et prend les valeurs 0 ou 1. Les cellules du tableau indiquent la fréquence de chaque combinaison de R et C; par exemple, est la fréquence de R = 0 et C = 1. Aux fins de ma question, supposons que le nombre de cellules est divisé par le total, de sorte que les valeurs des cellules sont les probabilités conjointes des cellules .

$b$

Je veux exprimer les probabilités des cellules en termes de coefficient phi (qui est une mesure de corrélation avec la formule fournie ci-dessous) et les probabilités marginales: et . Autrement dit, je veux inverser le système suivant de quatre équations: et, bien sûr, . En d'autres termes, je voudrais résoudre pour , , et en termes de $\mu_R\equiv p(R\!=\!1) = c+d$ $\mu_C\equiv p(C\!=\!1) = b+d$

\begin{aligned} (by defn) & ϕ & \equiv (a d - b c) / \sqrt{(a + b) (c + d) (a + c) (b + d)} \\ (by defn) & μ_{R} & = c + d \\ (by defn) & μ_{C} & = b + d \\ (constraint) & 1 & = a + b + c + d \end{aligned}

$\begin{align} \phi &\equiv (ad-bc)/\sqrt{(a+b)(c+d)(a+c)(b+d)} \tag{by defn}\\ \mu_{R} &= c+d \tag{by defn}\\ \mu_{C} &= b+d \tag{by defn}\\ 1 &= a+b+c+d \tag{constraint} \end{align}$

0 \leq a, b, c, d \leq 1

$0 \le a,b,c,d \le 1$ $a$ $b$ $c$ $d$ $\phi$ , et . $\mu_{R}$ $\mu_{C}$

Ce problème a probablement été résolu par quelqu'un auparavant, mais mes recherches n'ont pas donné de source, et mes faibles tentatives d'algèbre n'ont pas produit de réponse, et je ne trouve pas d'onduleurs d'équation de système en ligne (non linéaires) qui gèrent ce cas. .

contingency-tables simultaneous-equation

— John K. Kruschke
source

Nous reconnaissons facilement chaque facteur dans le dénominateur de , car et . Commençons donc par une petite simplification pour éviter d'écrire beaucoup de racines carrées: $\phi$ $a+b=1-\mu_R$ $a+c=1-\mu_C$

Δ = a d - b c = ϕ \sqrt{μ_{R} (1 - μ_{R}) μ_{C} (1 - μ_{C})} .

$\Delta=ad - bc = \phi \sqrt{\mu_R(1-\mu_R)\mu_C(1-\mu_C)}.$

Trouvons : $d$

\begin{aligned} d & = (1) d = (a + b + c + d) d = a d + b d + c d + d^{2} \\ = a d + (- b c + b c) + b d + c d + d^{2} \\ = (a d - b c) + (c + d) (b + d) \\ = Δ + μ_{R} μ_{C} . \end{aligned}

$\eqalign{d &= (1)d = (a+b+c+d)d = ad +bd +cd + d^2 \\ &= ad + (-bc + bc) + bd + cd + d^2 \\ &= (ad - bc) + (c+d)(b+d) \\&= \Delta + \mu_R\mu_C.}$

La recherche de , et déroule de manière similaire en raison des symétries du problème: l'échange des colonnes permute et , et , tout en changeant en et en annulant , d'où $a$ $b$ $c$ $a$ $b$ $c$ $d$ $\mu_C$ $1-\mu_C$ $\Delta$

c = - Δ + μ_{R} (1 - μ_{C}) .

$c = -\Delta + \mu_R(1-\mu_C).$

L'échange des lignes permute et , et , tout en changeant en et en annulant , d'où $a$ $c$ $b$ $d$ $\mu_R$ $1-\mu_R$ $\Delta$

b = - Δ + (1 - μ_{R}) μ_{C} .

$b = -\Delta + (1-\mu_R)\mu_C.$

L'échange de lignes et de colonnes donne

a = Δ + (1 - μ_{R}) (1 - μ_{C}) .

$a = \Delta + (1-\mu_R)(1-\mu_C).$

Étant donné ces expressions pour , il est simple de vérifier que et , et seulement un peu plus difficile à vérifiez que . $a,b,c,d$ $a+b+c+d=1, c+d=\mu_R,$ $b+d=\mu_C$ $ad-bc=\Delta$

— whuber
source

Une remarque pour ceux qui pourraient utiliser cette réponse (correcte!): Cela peut donner des valeurs de a, b, c ou d qui sont négatives. En d'autres termes, toutes les combinaisons de phi dans [-1,1], mu_R dans [0,1] et mu_C dans [0,1] ne peuvent pas être créées par des matrices de probabilité. À whuber: Merci!

— John K. Kruschke

C'est exact, John, mais je n'ai fait aucune mention de ce fait parce que probablement , et ont été obtenus à partir d'une table valide en premier lieu. En supposant que et sont des fréquences valides (dans l'intervalle ), sera réel. Il doit se situer dans l'intervalle

μ_{R}

$\mu_R$

μ_{C}

$\mu_C$

ϕ

$\phi$

μ_{R}

$\mu_R$

μ_{C}

$\mu_C$

[0, 1]

$[0,1]$

Δ

$\Delta$

[- min (μ_{R} μ_{C}, (1 - μ_{R}) (1 - μ_{C})), min (μ_{R} (1 - μ_{C}), (1 - μ_{R}) μ_{C})] .

$[-\min(\mu_R\mu_C, (1-\mu_R)(1-\mu_C)), \ \min(\mu_R(1-\mu_C), (1-\mu_R)\mu_C)].$

— whuber