Je collecte chaque jour de très grands échantillons (> 1 000 000) de données catégoriques et je souhaite que les données soient "significativement" différentes d'un jour à l'autre pour détecter les erreurs de collecte de données.
Je pensais que l'utilisation d'un test de bon ajustement (en particulier, un test G) serait un bon ajustement (jeu de mots) pour cela. La distribution attendue est donnée par la distribution de la veille.
Mais, parce que mes échantillons sont si grands, le test a une puissance très élevée et dégage de nombreux faux positifs. C'est-à-dire que même une fluctuation quotidienne très mineure donnera une valeur de p proche de zéro.
J'ai fini par multiplier ma statistique de test par une constante (0,001), ce qui a la bonne interprétation d'échantillonner les données à ce rythme. Cet article semble d'accord avec cette approche. Ils disent ça:
Le chi carré est le plus fiable avec des échantillons d'environ 100 à 2500 personnes
Je recherche des commentaires plus fiables à ce sujet. Ou peut-être des solutions alternatives aux faux positifs lors de l'exécution de tests statistiques sur de grands ensembles de données.