Comment la statistique Chi Squared de Pearson se rapproche-t-elle d'une distribution Chi Chi

10

Donc, si la statistique Chi Squared de Pearson est donnée pour une table , alors sa forme est: $1 \times N$

\sum_{i = 1}^{n} \frac{(O_{i} - E_{i})^{2}}{E_{i}}

$\sum_{i=1}^n\frac{(O_i - E_i)^2}{E_i}$

Ensuite, cela se rapproche de , la distribution du chi carré avec degrés de liberté, à mesure que la taille de l'échantillon augmente. $\chi_{n-1}^2$ $n-1$ $N$

Ce que je ne comprends pas, c'est comment fonctionne cette approximation asymptotique. J'ai l'impression que les dans les dénominateurs devraient être remplacés par . Puisque cela vous donnerait , pour . Mais bien sûr, cela a degrés de liberté, pas , donc clairement quelque chose d'autre se passe. $E_i$ $\frac{s_i^2}{n_i}$ $\chi_n^2 = \sum_{i=1}^nZ_i^2$ $Z_i\sim n(0,1)$ $n$ $n-1$

chi-squared asymptotics

— Thoth
source

Bien que cela ne réponde pas à votre question , cela peut vous éclairer.

— whuber

11

Je vais motiver cela de manière intuitive et indiquer comment cela se produit pour le cas spécial de deux groupes, en supposant que vous êtes heureux d'accepter l'approximation normale du binôme.

J'espère que cela vous suffira pour comprendre pourquoi cela fonctionne comme il le fait.

Vous parlez de la bonté chi carré du test d'ajustement. Disons qu'il y a groupes (vous l'avez comme , mais il y a une raison pour laquelle j'ai tendance à préférer l'appeler ). $k$ $n$ $k$

Dans le modèle appliqué pour cette situation, les comptes , sont multinomiaux . $O_i$ $i=1,2,...,k$

Soit . Les comptes sont conditionnés à la somme (sauf dans certaines situations assez rares); et il existe un ensemble de probabilités prédéfinies pour chaque catégorie, , qui totalisent . $N=\sum_{i=1}^k O_i$ $N$ $p_i, i=1, 2, \ldots,k$ $1$

Tout comme avec le binôme, il existe une approximation asymptotique normale pour les multinômes - en effet, si vous ne considérez que le nombre dans une cellule donnée ("dans cette catégorie" ou non), ce serait alors un binôme. Tout comme pour le binôme, les variances des dénombrements (ainsi que leurs covariances dans le multinomial) sont des fonctions de et des ; vous n'évaluez pas un écart séparément. $N$ $p$

Autrement dit, si les dénombrements attendus sont suffisamment grands, le vecteur de dénombrements est approximativement normal avec la moyenne . Cependant, comme les comptages sont conditionnés à , la distribution est dégénérée (elle existe dans un hyperplan de dimension , car la spécification de des comptages fixe le reste). La matrice de variance-covariance a des entrées diagonales et des éléments diagonaux hors , et elle est de rang raison de la dégénérescence. $E_i=Np_i$ $N$ $k-1$ $k-1$ $Np_i(1-p_i)$ $-Np_ip_j$ $k-1$

Par conséquent, pour une cellule individuelle , et vous pouvez écrire . Cependant, les termes sont dépendants (corrélés négativement), donc si vous additionnez les carrés de ces il n'aura pas la (comme s'il s'agissait de variables indépendantes normalisées). Au lieu de cela, nous pourrions potentiellement construire un ensemble de variables indépendantes à partir des origine qui sont indépendantes et toujours approximativement normales (asymptotiquement normales). Si nous additionnions leurs carrés (standardisés), nous obtiendrions un . Il existe des moyens de construire un tel ensemble de $\text{Var}(O_i)=Np_i(1-p_i)$ $z_i = \frac{O_i-E_i}{\sqrt{E_i(1-p_i)}}$ $z_i$ $\chi^2_k$ $k-1$ $k$ $\chi^2_{k-1}$ $k-1$ les variables de manière explicite, mais heureusement, il existe un raccourci très soigné qui évite ce qui équivaut à un effort substantiel, et donne le même résultat (la même valeur de la statistique) que si nous nous étions mis à la tâche.

Considérons, pour plus de simplicité, une qualité d'ajustement avec deux catégories (qui est maintenant binomiale). La probabilité d'être dans la première cellule est , et dans la deuxième cellule est . Il y a observations dans la première cellule et dans la deuxième cellule. $p_1=p$ $p_2=1-p$ $X = O_1$ $N-X=O_2$

Le premier nombre de cellules observé, est asymptotiquement . Nous pouvons le standardiser comme . Alors est approximativement (asymptotiquement ). $X$ $\text{N}(Np,Np(1-p))$ $z=\frac{X-Np}{\sqrt{Np(1-p)}}$ $z^2 = \frac{(X-Np)^2}{Np(1-p)}$ $\sim \chi^2_1$ $\sim \chi^2_1$

Remarquerez que

$\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} = \frac{[X-Np]^2}{Np}+ \frac{[(N-X)-(N-Np)]^2}{N(1-p)}= \frac{[X-Np]^2}{Np}+ \frac{[X-Np]^2}{N(1-p)}=(X-Np)^2[\frac{1}{Np}+ \frac{1}{N(1-p)}]$ .

Mais

$\frac{1}{Np}+ \frac{1}{N(1-p)} =\frac{Np+N(1-p)}{Np.N(1-p)} = \frac{1}{Np(1-p)}$ .

Donc qui est le nous avons commencé avec - qui sera asymptotiquement une variable aléatoire . La dépendance entre les deux cellules est telle qu'en plongeant par au lieu de nous exactement la dépendance entre les deux, et obtenons la variable aléatoire originale au carré d'une approximativement normale. $\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} =\frac{(X-Np)^2}{Np(1-p)}$ $z^2$ $\chi^2_1$ $E_i$ $E_i(1-p_i)$

Le même type de dépendance à la somme est pris en charge par la même approche lorsqu'il y a plus de deux catégories - en sommant le au lieu de sur tous les termes, vous compensez exactement l'effet de la dépendance et obtenez une somme équivalente à une somme de normales indépendantes . $\frac{(O_i-E_i)^2}{E_i}$ $\frac{(O_i-E_i)^2}{E_i(1-p_i)}$ $k$ $k-1$

Il existe diverses façons de montrer que la statistique a une distribution qui asymptotiquement pour les plus gros (elle est couverte dans certains cours de statistiques de premier cycle et peut être trouvée dans un certain nombre de textes de premier cycle), mais je ne veux pas vous conduire trop loin au-delà du niveau suggéré par votre question. En effet les dérivations sont faciles à trouver dans les notes sur internet, par exemple il y a deux dérivations différentes en l'espace d'environ deux pages ici $\chi^2_{k-1}$ $k$

— Glen_b -Reinstate Monica
source

Merci, c'est logique. Est-ce quelque chose d'une coïncidence / accident mathématique qui fonctionne si bien pour être simplement divisé par la valeur attendue? ou existe-t-il une explication statistique intuitive pourquoi cela devrait être le cas.

— Thoth

Il existe plusieurs explications qui peuvent être intuitives ou non, selon les choses qui varient d'une personne à l'autre. Par exemple, si les dénombrements observés étaient à l'origine des variables de Poisson indépendantes, la variance pour le amènerait en fait à diviser par (& le Poisson est également asymptotiquement normal). Si vous conditionnez ensuite sur le total (comme ci-dessus), vous obtenez multinomial. Que vous conditionniez ou non le total (c'est-à-dire que vous le traitiez comme Poisson ou multinomial), l'estimateur ML est le même, et donc la variance de cet estimateur est la même - (ctd)

z

$z$

E_{i}

$E_i$

— Glen_b -Reinstate Monica

(ctd) ... Par conséquent, vous devez diviser par et la variance devrait ressortir exactement à droite. [ Cependant, vous n'avez encore que df.]

E_{i}

$E_i$

k - 1

$k-1$

— Glen_b -Reinstate Monica

0

Le manuscrit d'une page http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf mentionné par l'utilisateur @Glen_b montre finalement que la statistique peut être réécrite sous la forme d'un Hotelling avec un rang de covariance = (voir éq. 9.6). On peut alors invoquer un résultat classique de SJ Sepanski (1994) pour obtenir sa distribution asymptotique en chi carré avec degrés de liberté. $T^2$ $k-1$ $k-1$

— dohmatob
source