Comment effectuer un test t avec des échantillons énormes?


11

J'ai deux populations, l'une avec N = 38 704 (nombre d'observations) et l'autre avec N = 1 313 662. Ces ensembles de données ont environ 25 variables, toutes continues. J'ai pris la moyenne de chacun dans chaque ensemble de données et calculé la statistique de test en utilisant la formule

t = différence moyenne / erreur std

Le problème est du degré de liberté. Par la formule de df = N1 + N2-2, nous aurons plus de liberté que la table ne peut en gérer. Des suggestions à ce sujet? Comment vérifier la statistique t ici. Je sais que le test t est utilisé pour manipuler des échantillons mais qu'en est-il si nous appliquons cela sur de grands échantillons.

Réponses:


20

chl a déjà mentionné le piège des comparaisons multiples lors de la réalisation simultanée de 25 tests avec le même ensemble de données. Un moyen simple de gérer cela consiste à ajuster le seuil de la valeur p en les divisant par le nombre de tests (dans ce cas, 25). La formule la plus précise est: Valeur p ajustée = 1 - (1 - valeur p) ^ (1 / n). Cependant, les deux formules différentes dérivent presque la même valeur p ajustée.

Il y a un autre problème majeur avec votre exercice de test d'hypothèse. Vous rencontrerez très certainement une erreur de type I (faux positif) par laquelle vous découvrirez des différences vraiment triviales qui sont extrêmement importantes au niveau de 99,9999%. En effet, lorsque vous traitez un échantillon d'une telle taille (n = 1 313 662), vous obtenez une erreur standard très proche de 0. En effet, la racine carrée de 1 313 662 = 1 146. Vous divisez donc l'écart type par 1 146. En bref, vous capturerez des différences infimes qui peuvent être complètement immatérielles.

Je vous suggère de vous éloigner de ce cadre de test d'hypothèses et de procéder à la place à une analyse de type de taille d'effet. Dans ce cadre, la mesure de la distance statistique est l'écart type. Contrairement à l'erreur standard, l'écart type n'est pas artificiellement réduit par la taille de l'échantillon. Et cette approche vous donnera une meilleure idée des différences importantes entre vos ensembles de données. La taille de l'effet est également beaucoup plus axée sur l'intervalle de confiance autour de la différence moyenne moyenne qui est beaucoup plus informative que les tests d'hypothèse se concentrent sur la signification statistique qui souvent n'est pas significative du tout. J'espère que ça t'as aidé.


4
+1 pour faire ressortir les idées clés: (1) nous pouvons garantir que les moyens différeront lorsque les ensembles de données seront aussi volumineux et (2) une autre analyse sera probablement plus appropriée et utile. Mais comme nous ne connaissons pas le but de l'analyse, nous devons être prudents quant à la formulation de recommandations spécifiques.
whuber

Merci Gaetan..toujours..Je pense que ce que je retiens de ceci est que l'écart-type est une meilleure mesure lorsque vous avez de gros échantillons comme le mien..s'il vous plaît laissez-moi savoir si j'ai raté quelque chose.
ayush biyani

1
ayush ... Vous avez raison. C'est essentiellement ça. Et, c'est parce que votre erreur standard deviendra si petite (en raison de la grande taille de l'échantillon). À son tour, cela exagère la distance statistique entre vos groupes de test et de contrôle. Et, vous amène finalement à rencontrer une erreur de type I (découvrez une différence si petite qu'elle est immatérielle). Il s'agit d'un problème courant dans les tests d'hypothèse avec de grands échantillons.
Sympa

14

La distribution t de Student se rapproche de plus en plus de la distribution normale standard à mesure que les degrés de liberté augmentent. Avec 1313662 + 38704 - 2 = 1352364 degrés de liberté, la distribution t sera indiscernable de la distribution normale standard, comme on peut le voir dans l'image ci-dessous (sauf si vous êtes peut-être dans les queues très extrêmes et que vous êtes intéressé par en distinguant les valeurs p absolument minimes des valeurs encore plus minces). Vous pouvez donc utiliser le tableau pour la distribution normale standard au lieu du tableau pour la distribution t .

texte alternatif


Les gars, merci pour la réponse. J'ai des données à analyser. Comment puis-je joindre des données à cela. Beaucoup de choses à vous demander ... Merci d'anticipation. Attend une réponse rapide.
ayush biyani du

4
Hein? Vous avez dit dans la question que vous aviez déjà calculé la statistique t, et chl a fourni un exemple de code R. Que veux-tu de plus? Soit dit en passant, je ne suis pas sûr que vous ayez le droit d'attendre ou de demander une réponse rapide; nous ne sommes pas payés pour cela, vous savez.
2010

1
@ayush Pour votre question précédente, je donne une réponse complète à votre question (à mon humble avis) - puis j'ai donné un suivi à vos commentaires avant de m'arrêter quand je pensais que vous posiez une autre question qui n'est pas le but de l'option de commentaire ici . Donc, je suggère que vous indiquiez clairement si votre question concerne une considération théorique ou une analyse de données appliquée (dans ce dernier cas, donnez-nous un exemple reproductible) ou séparez vos questions. BTW, vous avez toujours la possibilité d'accepter les réponses que vous trouvez utiles (encore une fois, par rapport à votre question d'origine, pas les commentaires qui suivent).
chl

2
@ayush Ah, et je me rends compte que vous ne votez jamais aucune des réponses qui vous ont été fournies (bien que vous ayez suffisamment de représentants maintenant).
chl

@ chl-- ouais..même je me rends compte de ma faute et je rectifierai cela à coup sûr dans les articles à venir..Merci de l'avoir signalé..Considérez-moi pendant quelques jours un amateur naïf ..
ayush biyani

10

La distribution tend vers la distribution (gaussienne) lorsque est grand (en fait, lorsque , ils sont presque identiques, voir l'image fournie par @onestop). Dans votre cas, je dirais que est TRÈS grand, de sorte que vous pouvez simplement utiliser un test . En raison de la taille de l'échantillon, toute TRÈS petite différence sera déclarée significative. Donc, il vaut la peine de se demander si ces tests (avec l'ensemble de données complet) sont vraiment intéressants.z n n > 30 n ztznn>30nz

Juste pour être sûr, comme votre ensemble de données comprend 25 variables, vous faites 25 tests? Si tel est le cas, vous devrez probablement corriger plusieurs comparaisons afin de ne pas gonfler le taux d'erreur de type I (voir le fil associé sur ce site).

BTW, le logiciel R vous donnerait les valeurs de p que vous recherchez, pas besoin de s'appuyer sur des tableaux:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.