Le test d'ajustement de utilise la statistique suivante :
Cependant, pour qu'une statistique suive une distribution (avec degrés de liberté), il doit être vrai que:
- Échantillon représentatif de la population
- Grand échantillon
- Le nombre de cellules attendu est suffisamment grand
- Indépendance entre chaque catégorie
D'après les conditions (1,2), il est clair que nous remplissons les conditions d'inférence de l'échantillon à la population. (3) semble être une hypothèse requise car le nombre discret , qui est au dénominateur, n'entraîne pas une distribution quasi continue pour chaque et s'il n'est pas assez grand il y a une erreur qui peut être corrigée avec Yates 'correction - cela semble provenir du fait qu'une distribution discrète est fondamentalement une distribution continue "plancher", donc le décalage de pour chacun corrige cela.Z i une / 2
La nécessité de (4) semble être utile plus tard, mais je ne vois pas comment.
Au début, je pensais que est nécessaire pour que la statistique corresponde à la distribution. Cela m'a conduit à l'hypothèse douteuse que , ce qui était effectivement faux. En fait, il ressort clairement de la réduction de dimension pour les deux côtés de l'égalité de à que cela ne peut pas être le cas. Oi-Ei∼N(0,√nn-1
Il est devenu évident, grâce aux explications de Whuber, que n'a pas besoin d'être égal à chaque terme parce que (notez la réduction du nombre de variables additionnées) pour les variables aléatoires normales normales qui sontO i - E i χ20=∑n-1i=1Z2iZi fonctionnellement indépendantes.
Ma question est alors de savoir comment suivre la ? Quels types de combinaisons de chacun des termes aboutissent à des normales standard au carré ? Cela nécessite l'utilisation du CLT, apparemment (et cela a du sens), mais comment? En d'autres termes , à quoi chaque égal (ou approximativement égal)? χ 2 ( O i - E i ) 2 Z 2 i Zi