J'ai deux populations, l'une avec N = 38 704 (nombre d'observations) et l'autre avec N = 1 313 662. Ces ensembles de données ont environ 25 variables, toutes continues. J'ai pris la moyenne de chacun dans chaque ensemble de données et calculé la statistique de test en utilisant la formule
t = différence moyenne / erreur std
Le problème est du degré de liberté. Par la formule de df = N1 + N2-2, nous aurons plus de liberté que la table ne peut en gérer. Des suggestions à ce sujet? Comment vérifier la statistique t ici. Je sais que le test t est utilisé pour manipuler des échantillons mais qu'en est-il si nous appliquons cela sur de grands échantillons.