CONTEXTE: Sautez en toute sécurité - c'est ici pour référence, et pour légitimer la question.
L'ouverture de cet article se lit comme suit:
"Le célèbre test de contingence chi carré de Karl Pearson est dérivé d'une autre statistique, appelée statistique z, basée sur la distribution normale. Les versions les plus simples de peuvent être mathématiquement identiques aux tests z équivalents. Les tests produisent le même résultat dans toutes les circonstances. À toutes fins utiles, «chi carré» pourrait être appelé «carré z». Les valeurs critiques de pour un degré de liberté sont le carré des valeurs critiques correspondantes de z. "
Cela a été affirmé plusieurs fois dans CV ( ici , ici , ici et d'autres).
Et en effet nous pouvons prouver que est équivalent à avec :
Disons que et que et trouvons la densité de en utilisant la méthode :
. Le problème est que nous ne pouvons pas intégrer sous une forme proche la densité de la distribution normale. Mais nous pouvons l'exprimer:
Puisque les valeurs du pdf normal sont symétriques:
. Égaliser ceci au du normal (maintenant le dans le sera à brancher dans la partie du pdf normal ); et en vous rappelant d'inclure à la fin:
Comparez au pdf du chi square:
Puisque , pour df, nous avons dérivé exactement le du chi carré. 1pdf
De plus, si nous appelons la fonction prop.test()
dans R, nous invoquons le même que si nous décidions .chisq.test()
LA QUESTION:
Je reçois donc tous ces points, mais je ne sais toujours pas comment ils s'appliquent à la mise en œuvre réelle de ces deux tests pour deux raisons:
Un test z n'est pas carré.
Les statistiques de test réelles sont complètement différentes:
La valeur de la statistique de test pour un est:
où
χ 2 O i i N E i N p i i i p i n = statistique de test cumulative de Pearson, qui approche asymptotiquement une . = le nombre d'observations de type ; = nombre total d'observations; = = la fréquence (théorique) attendue de type , affirmée par l'hypothèse nulle que la fraction de type dans la population est ; = le nombre de cellules du tableau.
D'un autre côté, la statistique de test pour un test est:
avec , où et sont le nombre de "succès", sur le nombre de sujets dans chacun des niveaux de la catégorie variables, c'est-à-dire et .
Cette formule semble s'appuyer sur la distribution binomiale.
Ces deux statistiques de tests sont clairement différentes et donnent des résultats différents pour les statistiques de test réelles, ainsi que pour les valeurs de p : 5.8481
pour le et pour le z-test, où ( merci, @ mark999). La valeur p pour le est , tandis que pour le test z est . La différence expliquée par : (merci @amoeba).2.4183
0.01559
0.0077
Alors à quel niveau disons-nous qu'ils sont une seule et même chose?
chisq.test()
, avez-vous essayé d'utiliser correct=FALSE
?