Y a-t-il une taille minimale d'échantillon requise pour que le test t soit valide?


71

Je travaille actuellement sur un document de recherche quasi expérimental. Je n'ai qu'un échantillon de 15 personnes en raison de la faible population de la région choisie et du fait que 15 seulement correspondent à mes critères. 15 est la taille minimale de l'échantillon à calculer pour le test t et le test F? Si oui, où puis-je obtenir un article ou un livre pour supporter cette petite taille d'échantillon?

Ce document avait déjà été défendu lundi dernier et l'un des membres du groupe d'experts a demandé une référence à l'appui, car la taille de mon échantillon est trop basse. Il a dit qu'il aurait dû y avoir au moins 40 répondants.


4
Un échantillon peut être sensiblement inférieur à 15 si les hypothèses sont valables. La validité de la distribution t était-elle la seule raison pour laquelle il a suggéré un échantillon plus large?
Glen_b

Juste pour clarifier, quel type de test t effectuez-vous: un échantillon, un échantillon apparié ou deux échantillons.
Jeromy Anglim

26
Historiquement, la toute première démonstration du test t (dans le document de 1908 de "Student") portait sur une application à des échantillons de taille quatre . En effet, obtenir des résultats améliorés pour de petits échantillons est la raison d' être du test: une fois que la taille de l'échantillon a atteint une quarantaine, le test t n'est plus très différent des tests z appliqués par les chercheurs tout au long du 19ème siècle. Vous pouvez partager une version moderne de ce document avec le membre du panel: york.ac.uk/depts/maths/histstat/student.pdf . Indiquez l’enquête dans la section VI, p. 14-18.
whuber

10
Mais vous devez penser au fait que des échantillons de petite taille, tels que 4, fonctionnent parce que Student disposait de données de haute qualité: données de laboratoire de chimie, expériences, et non quasi expériences. Votre problème principal n’est pas la taille de l’échantillon, mais la représentativité: comment savez-vous que vos données sont représentatives?
kjetil b halvorsen le

10
@CzarinaFrancoise Pourquoi nous limiterions-nous à la science <10 ans?
RioRaider

Réponses:


56

Il n'y a pas de taille minimale d'échantillon pour que le test t soit valide. La validité nécessite que les hypothèses de la statistique de test soient approximativement valides. Ces hypothèses reposent dans le cas d’un échantillon sur le fait que les données sont normales (ou approximativement normales) avec une moyenne nulle sous l’hypothèse nulle et une variance inconnue mais estimée à partir de l’échantillon. Dans le cas des deux échantillons, les deux échantillons sont indépendants l'un de l'autre et chaque échantillon est constitué de iid variables normales, les deux échantillons ayant la même moyenne et une variance inconnue commune sous l'hypothèse nulle. Une estimation groupée de la variance est utilisée pour les statistiques.

Dans le cas d'un échantillon, la distribution sous l'hypothèse nulle est un t central avec n-1 degrés de liberté. Dans les deux cas d'échantillons avec des tailles d'échantillons n et m pas nécessairement égales, la distribution nulle des statistiques de test est t avec n + m-2 degrés de liberté. La variabilité accrue due à la taille réduite de l’échantillon est prise en compte dans la distribution qui a des queues plus lourdes lorsque les degrés de liberté sont faibles, ce qui correspond à une taille réduite de l’échantillon. Il est donc possible de trouver des valeurs critiques pour que la statistique de test ait un niveau de signification donné pour toute taille d’échantillon (ainsi, au moins de taille 2 ou plus).

Le problème avec la taille réduite de l’échantillon concerne la puissance du test. L’examinateur a peut-être estimé que la taille de l’échantillon par groupe n’était pas assez importante pour permettre de détecter une différence significative disons delta entre les deux moyennes ou une moyenne supérieure à delta en valeur absolue pour un problème à un échantillon. Avoir besoin de 40 nécessiterait la spécification d’une certaine puissance à un delta particulier qui serait atteinte avec n égal à 40 mais non inférieur à 40.

Je devrais ajouter que pour que le test t soit effectué, l'échantillon doit être suffisamment grand pour pouvoir estimer la variance ou les variances.


2
Cependant, il est important de noter que le test est valide, même si les données ne sont pas approximativement normales, si la taille de l'échantillon est suffisante. La justification est un peu approximative (le théorème de Slutsky + la distribution t s'approchant de la normale) et la justification pour l'utilisation sur un test z simplement qu'elle est plus conservatrice dans les échantillons plus petits. Mais il est important de noter que si nous soupçonnons une non-normalité, de grands échantillons peuvent nous sauver!
Cliff AB

1
@CliffAB Par "valide", je suppose que vous voulez dire "a approximativement le bon niveau de signification, dans la limite de n \ to \ infty". Mais généralement, les gens se soucient de plus que du taux d'erreur de type I (en particulier lorsqu'il peut n'être que raisonnablement proche d'échantillons pouvant être plus volumineux que la taille de l'échantillon disponible). L'efficacité relative asymptotique peut être vraiment très faible, de sorte que la puissance contre de petits effets dans de grands échantillons peut être très mauvaise comparée aux options alternatives, même si le taux d'erreur de type I devient ce qu'il devrait être ..
Glen_b

33

Avec tout le respect que je lui porte, il ne sait pas de quoi il parle. Le test t a été conçu pour travailler avec de petits échantillons. Il n'y a pas vraiment de minimum (vous pourriez peut-être dire un minimum de 3 pour un test t à échantillon unique, IDK), mais vous avez un problème concernant une alimentation adéquate avec de petits échantillons. Vous voudrez peut-être vous renseigner sur les idées qui sous-tendent l' analyse de la puissance de compromis lorsque la taille possible de l'échantillon est extrêmement restreinte, comme dans votre cas.

En ce qui concerne une référence qui prouve que vous pouvez utiliser le test t avec de petits échantillons, je ne le connais pas et je doute qu’il en existe un. Pourquoi quelqu'un essaierait-il de le prouver? L'idée est juste idiote.


6
+1 (à toi et Michael). Il est intéressant de noter que vous n’avez même pas besoin de deux observations pour tirer des conclusions si vous êtes prêt à faire un ensemble d’hypothèses!
Andy W

4
La raison du test t sur petit échantillon est que même lorsque les échantillons sont normaux si l’écart type est inconnu, il est courant de normaliser en divisant par une estimation type de l’écart type. Dans les grands échantillons, cette estimation sera suffisamment proche de l'écart type de la population pour que les statistiques du test soient approximativement normales à la normale, mais dans le petit échantillon, les queues seront plus lourdes que la normale.
Michael Chernick

5
La distribution t avec n-1 degrés de liberté est la distribution exacte pour toute taille d'échantillon n sous l'hypothèse nulle et, dans les petits échantillons, elle doit être utilisée à la place de la normale qui ne l'approximera pas bien. Le vrai problème avec la taille de l'échantillon, comme l'a dit gung et moi, est le pouvoir. Si vous voulez dire à l'arbitre que 15 est suffisant, vous devez identifier l'ampleur de la différence qui doit être qualifiée de significative (le delta que j'ai mentionné), puis pour ce delta, vous devez montrer que la puissance est suffisante, par exemple à 0,80 ou plus. .
Michael Chernick

2
@CzarinaFrancoise À propos de n> = 30, voir stats.stackexchange.com/questions/2541/…
Stéphane Laurent le

2
Le document original de @gung Student (1908!) prouve que vous pouvez utiliser le test t avec de petits échantillons. (Pour plus d'informations à ce sujet, reportez-vous à mon commentaire
complémentaire

30

Comme mentionné dans les réponses existantes, le principal problème avec un petit échantillon est la faible puissance statistique. Il existe diverses règles empiriques concernant le pouvoir statistique acceptable. Certaines personnes disent qu'une puissance statistique de 80% est raisonnable, mais finalement, plus c'est mieux. De plus, il y a généralement un compromis à trouver entre le coût pour obtenir plus de participants et l'avantage d'obtenir plus de puissance statistique.

Vous pouvez évaluer la puissance statistique d'au test en utilisant une fonction simple dans R, power.t.test.

α=0,05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Ainsi, nous pouvons voir que si la taille de l'effet sur la population était "petite" ou "moyenne", vous auriez un pouvoir statistique faible (à savoir 11% et 44% respectivement). Cependant, si l'effet est important dans la population, vous obtiendrez ce que certains qualifieraient de pouvoir "raisonnable" (c.-à-d. 82%).

Le site rapide r fournit de plus amples informations sur l' analyse de puissance en utilisant R .


Bonne réponse! Il existe également un bon logiciel de calcul de la puissance statistique appelé G * Power .
Enrique

7

Le test t à deux échantillons est valide si les deux échantillons sont des échantillons aléatoires simples indépendants issus de distributions normales ayant la même variance et que chacune des tailles d'échantillon est d'au moins deux (de sorte que la variance de la population puisse être estimée.) sans rapport avec la question de la validité du test. Selon la taille de l'effet que l'on souhaite détecter, une petite taille d'échantillon peut être imprudente, mais une petite taille d'échantillon n'invalide pas le test. Notez également que pour toute taille d'échantillon, la distribution d'échantillonnage de la moyenne est Normale si la distribution parent est Normale. Bien entendu, les échantillons de grande taille sont toujours meilleurs, car ils fournissent des estimations plus précises des paramètres. Le théorème central limite nous dit que les moyennes d'échantillon sont plus normalement distribuées que les valeurs individuelles, mais comme l'ont souligné Casella et Berger, son utilité est limitée car le taux d’approche de la normalité doit être vérifié pour chaque cas particulier. Se fier à des règles empiriques n’est pas sage. Voir les résultats rapportés livres de Rand Wilcox.


5

Bien qu'il soit vrai que la distribution t tienne compte de la petite taille de l'échantillon, je suppose que votre arbitre pensait qu'il était difficile d'établir que la population est normalement distribuée, alors que la seule information dont vous disposez est un échantillon relativement petit. Cela peut ne pas être un gros problème avec un échantillon de taille 15, car l’échantillon est suffisamment grand pour montrer des signes de distribution vaguement normale? Si cela est vrai, alors espérons que la population se rapproche également de la normale et que, combiné au théorème de la limite centrale, cela devrait vous donner un échantillon de moyens suffisamment sage.

Mais je me méfie des recommandations d'utiliser des tests t pour des échantillons minuscules (tels que la taille quatre) à moins que la normalité de la population puisse être établie par une information externe ou une compréhension mécanique? Il ne peut sûrement pas y avoir suffisamment d’informations dans un échantillon de taille quatre pour avoir une idée de la composition de la population.


5

Considérez ce qui suit aux pages 254 à 256 de Sauro, J., et Lewis, JR (2016). Quantifier l'expérience utilisateur: Statistiques pratiques pour la recherche sur les utilisateurs, 2e éd. Cambridge, MA: Morgan-Kaufmann (vous pouvez regarder à l'intérieur à l' adresse https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).


AVEZ-VOUS BESOIN DE TESTER AU MOINS 30 UTILISATEURS?

D'UNE PART

La plupart d'entre nous qui avons suivi un cours d'introduction aux statistiques (ou qui connaissent quelqu'un qui a suivi ce cours) avons entendu la règle empirique voulant que pour estimer ou comparer les moyennes, la taille de votre échantillon soit au minimum de 30. Selon le théorème de la limite centrale, à mesure que la taille de l'échantillon augmente, la distribution de la moyenne devient de plus en plus normale, quelle que soit la normalité de la distribution sous-jacente. Certaines études de simulation ont montré que pour une grande variété de distributions (mais pas toutes - voir Bradley, 1978), la distribution de la moyenne devient proche de la normale lorsque n = 30.

Une autre considération est qu'il est légèrement plus simple d'utiliser des scores z plutôt que des scores t car les scores z ne nécessitent pas l'utilisation de degrés de liberté. Comme indiqué dans le tableau 9.1 et la figure 9.2, lorsque vous disposez d'environ 30 degrés de liberté, la valeur de t se rapproche beaucoup de celle de z. Par conséquent, vous pouvez avoir l'impression que vous n'avez pas à traiter avec de petits échantillons nécessitant des statistiques sur de petits échantillons (Cohen, 1990). ...

D'AUTRE PART

Lorsque le coût d'un échantillon est coûteux, comme c'est souvent le cas dans de nombreux types de recherches sur les utilisateurs (par exemple, des tests de convivialité modérés), il est important d'estimer la taille de l'échantillon nécessaire aussi précisément que possible, sachant qu'il s'agit d'une estimation. La probabilité que 30 soit exactement le bon échantillon pour un ensemble de circonstances donné est très faible. Comme indiqué dans nos chapitres sur l'estimation de la taille de l'échantillon, une approche plus appropriée consiste à utiliser les formules pour calculer les niveaux de signification d'un test statistique et, en utilisant l'algèbre pour résoudre n, les convertir en formules d'estimation de la taille de l'échantillon. Ces formules fournissent ensuite des indications précises sur ce que vous devez savoir ou estimer dans une situation donnée pour estimer la taille requise de l’échantillon.

L'idée que même avec la distribution t (par opposition à la distribution z), vous devez avoir un échantillon d'au moins 30, est incompatible avec l'historique du développement de la distribution. En 1899, William S. Gossett, récemment diplômé en chimie et en mathématiques du New College of Oxford, devint l'un des premiers scientifiques à intégrer la brasserie Guinness. «Comparé aux géants de son époque, il a très peu publié, mais sa contribution revêt une importance capitale. … La nature du processus de brassage, avec sa variabilité de température et d'ingrédients, signifie qu'il n'est pas possible de prélever de grands échantillons à long terme »(Cowles, 1989, p. 108-109).

Cela signifiait que Gossett ne pouvait pas utiliser les z-scores dans son travail - ils ne fonctionnaient tout simplement pas bien avec de petits échantillons. Après avoir analysé les lacunes de la distribution z pour les tests statistiques avec de petits échantillons, il a élaboré les ajustements nécessaires en fonction du degré de liberté de production de ses tableaux, publiés sous le pseudonyme «Student» en raison de la politique de Guinness interdisant la publication. par les employés (Salsburg, 2001). Dans le travail qui a conduit à la publication des tableaux, Gossett a réalisé une première version des simulations de Monte Carlo (Stigler, 1999). Il a préparé 3 000 cartes étiquetées avec des mesures physiques prises sur des criminels, les a mélangées, puis réparties entre 750 groupes de taille 4, soit une taille d'échantillon bien inférieure à 30.

NOTRE RECOMMANDATION

Cette controverse s'apparente à l'argument «cinq c'est assez» par opposition à «huit n'est pas assez» abordé au chapitre 6, mais appliqué à la recherche sommative plutôt qu'à la recherche formative. Pour toute recherche, le nombre d'utilisateurs à tester dépend de l'objectif du test et du type de données que vous prévoyez de collecter. Le «nombre magique» 30 a une justification empirique, mais à notre avis, il est très faible. Comme vous pouvez le constater parmi les nombreux exemples cités dans ce livre dont la taille des échantillons n'est pas égale à 30 (parfois moins, parfois plus), nous ne tenons pas beaucoup à cette règle empirique. Comme décrit dans notre chapitre sur la taille de l'échantillon pour la recherche sommative, la taille de l'échantillon appropriée pour une étude dépend du type de distribution, de la variabilité attendue des données, des niveaux de confiance et de puissance souhaités,

Comme illustré à la Fig. 9.2, lorsqu’on utilise la distribution t avec de très petits échantillons (par exemple, avec des degrés de liberté inférieurs à 5), les très grandes valeurs de t compensent les faibles tailles d’échantillon en ce qui concerne le contrôle des erreurs de type I ( réclamer une différence est important quand ce n’est vraiment pas le cas). Avec des échantillons de tailles aussi petites, vos intervalles de confiance seront beaucoup plus larges que ceux que vous obtiendriez avec des échantillons plus grands. Mais une fois que vous avez plus de 5 degrés de liberté, il y a très peu de différence absolue entre la valeur de z et la valeur de t. Du point de vue de l'approche de t à z, il y a très peu de gain après 10 degrés de liberté.

Il n’est pas beaucoup plus compliqué d’utiliser la distribution t que la distribution z (vous devez simplement vous assurer d’utiliser la bonne valeur pour les degrés de liberté), et la raison du développement de la distribution t était: permettre l'analyse de petits échantillons. Il ne s’agit là que de l’un des moyens les moins évidents par lesquels les praticiens de la convivialité bénéficient de la science et de la pratique du brassage de la bière. Les historiens des statistiques considèrent généralement que la publication du test t de Student par Gossett est un événement marquant (Box, 1984; Cowles, 1989; Stigler, 1999). Dans une lettre à Ronald A. Fisher (l'un des pères des statistiques modernes) contenant une copie des premiers tableaux, Gossett écrivait: «Vous êtes probablement le seul homme à les utiliser» (Box, 1978). Gossett a eu beaucoup de bonnes choses, mais il s'est certainement trompé.

RÉFÉRENCES

Box, GEP (1984). L'importance de la pratique dans le développement des statistiques. Technometrics, 26 (1), 1-8.

Box, JF (1978). Fisher, la vie d'un scientifique. New York, NY: John Wiley.

Bradley, JV (1978). Robustesse? Journal britannique de psychologie mathématique et statistique, 31, 144-152.

Cohen, J. (1990). Les choses que j'ai apprises (jusqu'à présent). American Psychologist, 45 (12), 1304-1312.

Cowles, M. (1989). Statistiques en psychologie: une perspective historique. Hillsdale, NJ: Lawrence Erlbaum.

Salsburg, D. (2001). La dégustatrice: comment les statistiques ont révolutionné la science au XXe siècle. New York, NY: WH Freeman.

Stigler, SM (1999). Statistiques sur la table: L'histoire des concepts et des méthodes statistiques. Cambridge, MA: Presses universitaires de Harvard.


3

Czarina trouvera peut-être intéressant de comparer les résultats de son test t paramétrique avec ceux obtenus avec un test t bootstrap. Le code suivant pour Stata 13/1 imite un exemple fictif concernant un test t à deux échantillons avec des variances inégales (test t paramétrique: valeur p = 0,1493; test t bootstrap: valeur p = 0,1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

Il y a deux façons différentes de justifier l'utilisation du test t.

  • Vos données sont normalement distribuées et vous avez au moins deux échantillons par groupe.
  • Vous avez des échantillons de grande taille dans chaque groupe

Si l'un ou l'autre de ces cas est respecté, le test t est considéré comme valide. Donc, si vous êtes prêt à partir du principe que vos données sont normalement distribuées (ce que de nombreux chercheurs qui collectent de petits échantillons), vous n’avez alors aucune raison de vous inquiéter.

Cependant, une personne peut raisonnablement objecter que vous vous appuyez sur cette hypothèse pour obtenir vos résultats, en particulier si vos données sont connues pour être faussées. Ensuite, la question de la taille de l’échantillon requise pour une inférence valide est très raisonnable.

Pour ce qui est de la taille de l'échantillon requis, il n'y a malheureusement pas de réponse vraiment solide à cela. plus vos données sont asymétriques, plus la taille de l'échantillon requise pour rendre l'approximation raisonnable est grande. 15 à 20 par groupe est généralement considéré comme assez important, mais comme dans la plupart des règles empiriques, il existe des contre-exemples: par exemple, dans les retours de billets de loterie (où 1 observation sur 10 000 000 est une valeur extrême), vous auriez littéralement besoin environ 100 000 000 observations avant que ces tests ne soient appropriés.


1

Je suis d'accord quant à l'utilité d'un test t boosté. Je recommanderais également, à titre de comparaison, un aperçu de la méthode bayésienne proposée par Kruschke à l' adresse http://www.indiana.edu/~kruschke/BEST/BEST.pdf . En général, les questions de "combien de sujets?" Vous ne pouvez pas répondre à moins que vous ayez en main une idée de ce que l’ effet serait significatif en termes de résolution du problème. En d’autres termes, par exemple, si le test était une étude hypothétique sur l’efficacité d’un nouveau médicament, la taille de l’effet pourrait être la taille minimale requise pour justifier le nouveau médicament par rapport à l’ancien pour la Food and Drug Administration américaine.

Ce qui est étrange dans cette discussion et dans bien d’autres encore, c’est la volonté générale de supposer que certaines données n’ont qu’une distribution théorique, comme celle de Gauss. Premièrement, nous n'avons pas besoin de poser de question, nous pouvons vérifier, même avec de petits échantillons. Deuxièmement, pourquoi affirmer une distribution théorique spécifique? Pourquoi ne pas simplement considérer les données comme une distribution empirique?

Bien sûr, dans le cas de petits échantillons, le fait de postuler que les données proviennent d'une certaine distribution est très utile pour l'analyse. Mais, pour paraphraser Bradley Efron, vous venez de créer une quantité infinie de données. Parfois, cela peut aller si votre problème est approprié. Parfois, ce n'est pas le cas.


1

En ce qui concerne les hypothèses pour le cas à deux échantillons; c'est que les deux échantillons sont indépendants l'un de l'autre et que chaque échantillon est constitué de variables normales, les deux échantillons ayant la même moyenne et une variance inconnue commune sous l'hypothèse nulle.

Il existe également le test t de Welch utilisant l’approximation de Satterwaite pour l’erreur type. Ceci est un test t à 2 échantillons en supposant des variances inégales.

Test t de Welch

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.