Laissant de côté le problème évident de la faible puissance du chi carré dans ce genre de circonstances, imaginez faire un test de qualité khi carré pour une certaine densité avec des paramètres non spécifiés, en regroupant les données.
Pour le concret, disons une distribution exponentielle avec une moyenne inconnue et un échantillon de disons 100.
Afin d'obtenir un nombre raisonnable d'observations attendues par casier, il faudrait tenir compte des données (par exemple, si nous choisissions de mettre 6 casiers en dessous de la moyenne et 4 au-dessus, cela continuerait à utiliser les limites des casiers basées sur les données) .
Mais cette utilisation des bacs basée sur la visualisation des données affecterait vraisemblablement la distribution de la statistique de test sous le zéro.
J'ai vu beaucoup de discussions sur le fait que - si les paramètres sont estimés selon la probabilité maximale à partir des données regroupées - vous perdez 1 df par paramètre estimé (un problème qui remonte à Fisher vs Karl Pearson) - mais je ne me souviens pas lire quoi que ce soit sur la recherche des limites de bacs elles-mêmes sur la base des données. (Si vous les estimez à partir des données non combinées, alors avec cases la distribution de la statistique de test se situe quelque part entre a et a .)
Ce choix de bacs basé sur des données a-t-il un impact significatif sur le niveau de signification ou la puissance? Y a-t-il des approches plus importantes que d'autres? S'il y a beaucoup d'effet, est-ce quelque chose qui disparaît dans les grands échantillons?
Si cela a un impact substantiel, cela semblerait rendre l'utilisation d'un test du chi carré lorsque les paramètres sont inconnus presque inutile dans de nombreux cas (bien qu'il soit toujours préconisé dans de nombreux textes), sauf si vous aviez un bon -estimation prioritaire du paramètre.
Une discussion des questions ou des références à des références (de préférence avec une mention de leurs conclusions) serait utile.
Modifier, à peu près un côté de la question principale:
Il me semble qu'il existe des solutions potentielles pour le cas spécifique de l'exponentielle * (et l'uniforme en viennent à y penser), mais je suis toujours intéressé par la question plus générale de l'impact du choix des limites de bac.
* Par exemple, pour l'exponentielle, on pourrait utiliser la plus petite observation (disons qu'elle est égale à ) pour avoir une idée très approximative de l'emplacement des bacs (puisque la plus petite observation est exponentielle avec une moyenne μ / n ), puis tester les n - 1 différences restantes ( x i - m ) pour l'exponentialité. Bien sûr, cela pourrait donner une très mauvaise estimation de μ, et donc de mauvais choix de cases, bien que je suppose que l'on pourrait utiliser l'argument de manière récursive afin de prendre les deux ou trois observations les plus basses parmi lesquelles choisir des cases raisonnables, puis tester les différences des observations restantes au-dessus de la plus grande de ces statistiques d'ordre le plus petit pour exponentialité)