Je vais motiver cela de manière intuitive et indiquer comment cela se produit pour le cas spécial de deux groupes, en supposant que vous êtes heureux d'accepter l'approximation normale du binôme.
J'espère que cela vous suffira pour comprendre pourquoi cela fonctionne comme il le fait.
Vous parlez de la bonté chi carré du test d'ajustement. Disons qu'il y a groupes (vous l'avez comme , mais il y a une raison pour laquelle j'ai tendance à préférer l'appeler ).knk
Dans le modèle appliqué pour cette situation, les comptes , sont multinomiaux .Oii=1,2,...,k
Soit . Les comptes sont conditionnés à la somme (sauf dans certaines situations assez rares); et il existe un ensemble de probabilités prédéfinies pour chaque catégorie, , qui totalisent .N=∑ki=1OiNpi,i=1,2,…,k1
Tout comme avec le binôme, il existe une approximation asymptotique normale pour les multinômes - en effet, si vous ne considérez que le nombre dans une cellule donnée ("dans cette catégorie" ou non), ce serait alors un binôme. Tout comme pour le binôme, les variances des dénombrements (ainsi que leurs covariances dans le multinomial) sont des fonctions de et des ; vous n'évaluez pas un écart séparément.Np
Autrement dit, si les dénombrements attendus sont suffisamment grands, le vecteur de dénombrements est approximativement normal avec la moyenne . Cependant, comme les comptages sont conditionnés à , la distribution est dégénérée (elle existe dans un hyperplan de dimension , car la spécification de des comptages fixe le reste). La matrice de variance-covariance a des entrées diagonales et des éléments diagonaux hors , et elle est de rang raison de la dégénérescence.Ei=NpiNk−1k−1Npi(1−pi)−Npipjk−1
Par conséquent, pour une cellule individuelle , et vous pouvez écrire . Cependant, les termes sont dépendants (corrélés négativement), donc si vous additionnez les carrés de ces il n'aura pas la (comme s'il s'agissait de variables indépendantes normalisées). Au lieu de cela, nous pourrions potentiellement construire un ensemble de variables indépendantes à partir des origine qui sont indépendantes et toujours approximativement normales (asymptotiquement normales). Si nous additionnions leurs carrés (standardisés), nous obtiendrions un . Il existe des moyens de construire un tel ensemble deVar(Oi)=Npi(1−pi)zi=Oi−EiEi(1−pi)√ziχ2kk−1kχ2k−1k−1 les variables de manière explicite, mais heureusement, il existe un raccourci très soigné qui évite ce qui équivaut à un effort substantiel, et donne le même résultat (la même valeur de la statistique) que si nous nous étions mis à la tâche.
Considérons, pour plus de simplicité, une qualité d'ajustement avec deux catégories (qui est maintenant binomiale). La probabilité d'être dans la première cellule est , et dans la deuxième cellule est . Il y a observations dans la première cellule et dans la deuxième cellule.p1=pp2=1−pX=O1N−X=O2
Le premier nombre de cellules observé, est asymptotiquement . Nous pouvons le standardiser comme . Alors est approximativement (asymptotiquement ).XN(Np,Np(1−p))z=X−NpNp(1−p)√z2=(X−Np)2Np(1−p)∼χ21∼χ21
Remarquerez que
∑2i=1(Oi−Ei)2Ei=[X−Np]2Np+[(N−X)−(N−Np)]2N(1−p)=[X−Np]2Np+[X−Np]2N(1−p)=(X−Np)2[1Np+1N(1−p)] .
Mais
1Np+1N(1−p)=Np+N(1−p)Np.N(1−p)=1Np(1−p) .
Donc qui est le nous avons commencé avec - qui sera asymptotiquement une variable aléatoire . La dépendance entre les deux cellules est telle qu'en plongeant par au lieu de nous exactement la dépendance entre les deux, et obtenons la variable aléatoire originale au carré d'une approximativement normale.∑2i=1(Oi−Ei)2Ei=(X−Np)2Np(1−p)z2χ21EiEi(1−pi)
Le même type de dépendance à la somme est pris en charge par la même approche lorsqu'il y a plus de deux catégories - en sommant le au lieu de sur tous les termes, vous compensez exactement l'effet de la dépendance et obtenez une somme équivalente à une somme de normales indépendantes .(Oi−Ei)2Ei(Oi−Ei)2Ei(1−pi)kk−1
Il existe diverses façons de montrer que la statistique a une distribution qui asymptotiquement pour les plus gros (elle est couverte dans certains cours de statistiques de premier cycle et peut être trouvée dans un certain nombre de textes de premier cycle), mais je ne veux pas vous conduire trop loin au-delà du niveau suggéré par votre question. En effet les dérivations sont faciles à trouver dans les notes sur internet, par exemple il y a deux dérivations différentes en l'espace d'environ deux pages iciχ2k−1k