Impact des limites de bacs basées sur des données sur un test d'adéquation du chi carré?

Laissant de côté le problème évident de la faible puissance du chi carré dans ce genre de circonstances, imaginez faire un test de qualité khi carré pour une certaine densité avec des paramètres non spécifiés, en regroupant les données.

Pour le concret, disons une distribution exponentielle avec une moyenne inconnue et un échantillon de disons 100.

Afin d'obtenir un nombre raisonnable d'observations attendues par casier, il faudrait tenir compte des données (par exemple, si nous choisissions de mettre 6 casiers en dessous de la moyenne et 4 au-dessus, cela continuerait à utiliser les limites des casiers basées sur les données) .

Mais cette utilisation des bacs basée sur la visualisation des données affecterait vraisemblablement la distribution de la statistique de test sous le zéro.

J'ai vu beaucoup de discussions sur le fait que - si les paramètres sont estimés selon la probabilité maximale à partir des données regroupées - vous perdez 1 df par paramètre estimé (un problème qui remonte à Fisher vs Karl Pearson) - mais je ne me souviens pas lire quoi que ce soit sur la recherche des limites de bacs elles-mêmes sur la base des données. (Si vous les estimez à partir des données non combinées, alors avec $k$ cases la distribution de la statistique de test se situe quelque part entre a $\chi^2_{k}$ et a $\chi^2_{k-p}$ .)

Ce choix de bacs basé sur des données a-t-il un impact significatif sur le niveau de signification ou la puissance? Y a-t-il des approches plus importantes que d'autres? S'il y a beaucoup d'effet, est-ce quelque chose qui disparaît dans les grands échantillons?

Si cela a un impact substantiel, cela semblerait rendre l'utilisation d'un test du chi carré lorsque les paramètres sont inconnus presque inutile dans de nombreux cas (bien qu'il soit toujours préconisé dans de nombreux textes), sauf si vous aviez un bon -estimation prioritaire du paramètre.

Une discussion des questions ou des références à des références (de préférence avec une mention de leurs conclusions) serait utile.

Modifier, à peu près un côté de la question principale:

Il me semble qu'il existe des solutions potentielles pour le cas spécifique de l'exponentielle * (et l'uniforme en viennent à y penser), mais je suis toujours intéressé par la question plus générale de l'impact du choix des limites de bac.

* Par exemple, pour l'exponentielle, on pourrait utiliser la plus petite observation (disons qu'elle est égale à ) pour avoir une idée très approximative de l'emplacement des bacs (puisque la plus petite observation est exponentielle avec une moyenne ), puis tester les différences restantes ( ) pour l'exponentialité. Bien sûr, cela pourrait donner une très mauvaise estimation de $m$ $\mu/n$ $n-1$ $x_i - m$ $\mu$ , et donc de mauvais choix de cases, bien que je suppose que l'on pourrait utiliser l'argument de manière récursive afin de prendre les deux ou trois observations les plus basses parmi lesquelles choisir des cases raisonnables, puis tester les différences des observations restantes au-dessus de la plus grande de ces statistiques d'ordre le plus petit pour exponentialité)

chi-squared goodness-of-fit binning

— Glen_b -Reinstate Monica
source

Question interessante. Je ne connais pas la réponse, mais l'idée que certains degrés de liberté devraient être perdus est logique. Si vous ne l'aviez pas déjà vu, cette réponse de @whuber devrait être source de réflexion: comment comprendre les degrés de liberté . Il me semble que certaines études de simulation devraient vous permettre d'avoir un aperçu ici, du moins pour certains cas spécifiques.

— gung - Rétablir Monica

Je ne sais pas à quel point cela est utile, mais il existe un problème similaire dans le domaine de l'estimation robuste. Plus précisément, une méthode d'estimation robuste (par exemple, la moyenne ajustée) nécessite souvent une entrée paramétrée (par exemple, un paramètre définissant la quantité à ajuster). Ce paramètre peut être choisi par une méthode basée sur les données (par exemple, voyez comment les queues sont grasses avant de choisir le paramètre de coupe). Mais la présélection du paramètre d'ajustement affecte la distribution de la moyenne ajustée par rapport, disons, à une règle de paramètre fixe. La manière habituelle de traiter cela dans cette littérature est via un bootstrap.

— Colin T Bowers,

@ColinTBowers - potentiellement quelque peu utile, merci. Je n'ai pas pensé à la possibilité de bootstrap.

— Glen_b -Reinstate Monica

Il pourrait être intéressant de décomposer le problème en un cas simple. Imaginez quelque chose comme seulement 5 observations de votre distribution préférée et placez un seul séparateur dans les données pour ne former que deux cases.

— zkurtz

Réponses:

Les résultats de base des tests de qualité d'ajustement du khi carré peuvent être compris de manière hiérarchique .

Niveau 0 . La statistique du test chi carré de Pearson classique pour tester un échantillon multinomial contre un vecteur de probabilité fixe est $p$ où désigne le nombre de résultats dans la ème cellule d'un échantillon de taille . Ceci peut être considéré comme la norme quadratique du vecteur où

X^{2} (p) = \sum_{i = 1}^{k} \frac{(X_{i}^{(n)} - n p_{i})^{2}}{n p_{i}} \overset{d}{\to} χ_{k - 1}^{2},

$X^2(p) = \sum_{i=1}^k \frac{(X^{(n)}_i - n p_i)^2}{n p_i} \stackrel{d}{\to} \chi_{k-1}^2 \>,$

X_{i}^{(n)}

$X_i^{(n)}$

i

$i$

n

$n$

Y_{n} = (Y_{1}^{(n)}, \dots, Y_{k}^{(n)})

$\mathbf Y_n = (Y_1^{(n)},\ldots,Y_k^{(n)})$

qui, par le théorème de la limite centrale multivariée converge en distribution comme

Y_{i}^{(n)} = (X_{i}^{(n)} - n p_{i}) / \sqrt{n p_{i}}

$Y_i^{(n)} = (X_i^{(n)} - n p_i)/\sqrt{n p_i}$

On voit de là que

puisque

Y_{n} \overset{d}{\to} N (0, I - \sqrt{p} {\sqrt{p}}^{T}) .

$\mathbf Y_n \stackrel{d}{\to} \mathcal N(0, \mathbf I - \sqrt{p}\sqrt{p}^T) \>.$

X^{2} = ‖ Y_{n} ‖^{2} \to χ_{k - 1}^{2}

$X^2 = \|\mathbf Y_n\|^2 \to \chi^2_{k-1}$

est idempotent de rang

I - \sqrt{p} {\sqrt{p}}^{T}

$\mathbf I - \sqrt{p}\sqrt{p}^T$

k - 1

$k-1$

$p$ $m$ $p_i$

X_{1}^{2} = \sum_{i = 1}^{k} \frac{(X_{i}^{(n)} - n {\hat{p}}_{i})^{2}}{n {\hat{p}}_{i}} \overset{d}{\to} χ_{k - m - 1}^{2},

$X^2_1 = \sum_{i=1}^k \frac{(X^{(n)}_i - n \hat{p}_i)^2}{n \hat{p}_i} \stackrel{d}{\to} \chi_{k-m - 1}^2 \>,$

$\lambda$ $k$

$m$ $m = 1$

X_{2}^{2} = \sum_{i = 1}^{k} \frac{(X_{i}^{(n)} - n {\hat{p}}_{i})^{2}}{n {\hat{p}}_{i}} \overset{d}{\to} χ_{k - m - 1}^{2},

$X^2_2 = \sum_{i=1}^k \frac{(X^{(n)}_i - n \hat{p}_i)^2}{n \hat{p}_i} \stackrel{d}{\to} \chi_{k-m - 1}^2 \>,$

{\hat{p}}_{i}

$\hat{p}_i$

$Z_1,\ldots,Z_n \sim F_\lambda$ $\lambda$ $\chi_{k-m-1}^2$ $\chi_{k-1}^2$

$\mathbf Y_n$ $\mathcal N(0, \mathbf I - \sqrt{p_\lambda}\sqrt{p_\lambda}^T - \mathbf A(\lambda))$

$\lambda$ $\mathbf A(\lambda)$

$\mathbf Y_n$ $\mathbf B(\hat{\lambda})$

Y_{n}^{T} B^{T} B Y_{n} \overset{d}{\to} χ_{k - 1}^{2},

$\mathbf Y_n^T \mathbf B^T \mathbf B \mathbf Y_n \stackrel{d}{\to} \chi_{k-1}^2 \>,$

k

$k$

Des exemples sont la statistique Rao – Robson – Nikulin et la statistique Dzhaparidze – Nikulin .

$k$ $1/k$ $\hat{I}_j = \hat \mu + \hat\sigma I_{0,j}$ where $I_{0,j} = [F^{-1}((j-1)/k), F^{-1}(j/k))$ . This result has been further extended to the case where the number of random cells grows with the sample size.

References

A W. van der Vaart (1998), Asymptotic Statistics, Cambridge University Press. Chapter 17: Chi-Square Tests.
H. Chernoff and E. L. Lehmann (1954), The use of maximum likelihood estimates in $\chi^2$ tests for goodness of fit, Ann. Math. Statist., vol. 25, no. 3, 579–586.
F. C. Drost (1989), Generalized chi-square goodness-of-fit tests for location-scale models when the number of classes tends to infinity, Ann. Stat, vol. 17, no. 3, 1285–1300.
M. S. Nikulin, M.S. (1973), Chi-square test for continuous distribution with shift and scale parameters, Theory of Probability and its Application, vol. 19, no. 3, 559–568.
K. O. Dzaparidze and M. S. Nikulin (1973), On a modification of the standard statistics of Pearson, Theory of Probability and its Application, vol. 19, no. 4, 851–853.
K. C. Rao and D. S. Robson (1974), A chi-square statistic for goodness of fit tests within exponential family, Comm. Statist., vol 3., no. 12, 1139–1153.
N. Balakrishnan, V. Voinov and M. S. Nikulin (2013), Chi-Squared Goodness of Fit Tests With Applications, Academic Press.

— cardinal
source

I've found at least partial answers to my question, below. (I'd still like to give someone that bonus, so any further information appreciated.)

Moore (1971) said that Roy (1956) and Watson (1957,58,59) showed that when the cell boundaries for a chi-square statistic are functions of best asymptotic normal estimated parameter values, then under certain conditions, the asymptotic null distribution of the chi-square statistic is still that of a sum of a $\chi^2_{k-p-1}$ and a weighted sum of $p$ $\chi^2_1$ variables (for $k$ cells, $p$ parameters) where the weights are between 0 and 1 (making the cdf of the distribution between that of a $\chi^2_{k-p}$ and a $\chi^2_{k}$ , as alluded to in my question for the distribution when using ML estimation), and the weights on those last $p$ terms are unaffected by that estimation.

References

Moore D.S. (1971), A Chi-Square Statistic with Random Cell Boundaries, Ann. Math. Stat., Vol 42, No 1, 147–156.

Roy A.R. (1956), On $\chi^2$ statistics with variable intervals, Technical Report No. 1, Dept of Statistics, Stanford University.

Watson, G.S. (1957), The $\chi^2$ goodness-of-fit test for normal distributions, Biometrika, 44, 336–348.

Watson, G.S. (1958), On $\chi^2$ goodness-of-fit tests for continuous distributions, J. Royal Statist. Soc. B, 20, 44–61.

Watson, G.S. (1959), Some recent results in $\chi^2$ goodness-of- fit tests, Biometrics, 15, 440-468

— Glen_b -Reinstate Monica
source