Je regarde une feuille Excel qui prétend calculer le , mais je ne reconnais pas cette façon de faire, et je me demandais si je manquais quelque chose.
Voici les données qu'il analyse:
+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
| 2000 | 42 | 32.5 |
| 2000 | 42 | 32.5 |
| 2000 | 25 | 32.5 |
| 2000 | 21 | 32.5 |
+------------------+----------+----------+
Et voici les sommes qu'il fait pour chaque groupe afin de calculer le chi carré:
P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B
Donc pour chaque groupe, le est:
2.822793
2.822793
1.759359
4.136448
Et la place totale Chi est: 11.54139
.
Cependant, chaque exemple que j'ai vu de calculer le est complètement différent de cela. Je ferais pour chaque groupe:
chiSq = (Observed-Expected)^2 / Expected
Et donc pour l'exemple ci-dessus, j'obtiendrais une valeur totale de chi carré de 11.3538
.
Ma question est - pourquoi dans la feuille Excel calculent-ils de cette façon? Est-ce une approche reconnue?
MISE À JOUR
Ma raison de vouloir savoir ceci est que j'essaie de reproduire ces résultats dans le langage R. J'utilise la fonction chisq.test et elle ne sort pas avec le même numéro que la feuille Excel. Donc, si quelqu'un sait comment faire cette approche en R, ce serait très utile!
MISE À JOUR 2
Si quelqu'un est intéressé, voici comment je l'ai calculé dans R:
res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
x=c(42,42,25,21);chisq.test(cbind(x,2000-x))