Considérez ce qui suit aux pages 254 à 256 de Sauro, J., et Lewis, JR (2016). Quantifier l'expérience utilisateur: Statistiques pratiques pour la recherche sur les utilisateurs, 2e éd. Cambridge, MA: Morgan-Kaufmann (vous pouvez regarder à l'intérieur à l' adresse https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
AVEZ-VOUS BESOIN DE TESTER AU MOINS 30 UTILISATEURS?
D'UNE PART
La plupart d'entre nous qui avons suivi un cours d'introduction aux statistiques (ou qui connaissent quelqu'un qui a suivi ce cours) avons entendu la règle empirique voulant que pour estimer ou comparer les moyennes, la taille de votre échantillon soit au minimum de 30. Selon le théorème de la limite centrale, à mesure que la taille de l'échantillon augmente, la distribution de la moyenne devient de plus en plus normale, quelle que soit la normalité de la distribution sous-jacente. Certaines études de simulation ont montré que pour une grande variété de distributions (mais pas toutes - voir Bradley, 1978), la distribution de la moyenne devient proche de la normale lorsque n = 30.
Une autre considération est qu'il est légèrement plus simple d'utiliser des scores z plutôt que des scores t car les scores z ne nécessitent pas l'utilisation de degrés de liberté. Comme indiqué dans le tableau 9.1 et la figure 9.2, lorsque vous disposez d'environ 30 degrés de liberté, la valeur de t se rapproche beaucoup de celle de z. Par conséquent, vous pouvez avoir l'impression que vous n'avez pas à traiter avec de petits échantillons nécessitant des statistiques sur de petits échantillons (Cohen, 1990). ...
D'AUTRE PART
Lorsque le coût d'un échantillon est coûteux, comme c'est souvent le cas dans de nombreux types de recherches sur les utilisateurs (par exemple, des tests de convivialité modérés), il est important d'estimer la taille de l'échantillon nécessaire aussi précisément que possible, sachant qu'il s'agit d'une estimation. La probabilité que 30 soit exactement le bon échantillon pour un ensemble de circonstances donné est très faible. Comme indiqué dans nos chapitres sur l'estimation de la taille de l'échantillon, une approche plus appropriée consiste à utiliser les formules pour calculer les niveaux de signification d'un test statistique et, en utilisant l'algèbre pour résoudre n, les convertir en formules d'estimation de la taille de l'échantillon. Ces formules fournissent ensuite des indications précises sur ce que vous devez savoir ou estimer dans une situation donnée pour estimer la taille requise de l’échantillon.
L'idée que même avec la distribution t (par opposition à la distribution z), vous devez avoir un échantillon d'au moins 30, est incompatible avec l'historique du développement de la distribution. En 1899, William S. Gossett, récemment diplômé en chimie et en mathématiques du New College of Oxford, devint l'un des premiers scientifiques à intégrer la brasserie Guinness. «Comparé aux géants de son époque, il a très peu publié, mais sa contribution revêt une importance capitale. … La nature du processus de brassage, avec sa variabilité de température et d'ingrédients, signifie qu'il n'est pas possible de prélever de grands échantillons à long terme »(Cowles, 1989, p. 108-109).
Cela signifiait que Gossett ne pouvait pas utiliser les z-scores dans son travail - ils ne fonctionnaient tout simplement pas bien avec de petits échantillons. Après avoir analysé les lacunes de la distribution z pour les tests statistiques avec de petits échantillons, il a élaboré les ajustements nécessaires en fonction du degré de liberté de production de ses tableaux, publiés sous le pseudonyme «Student» en raison de la politique de Guinness interdisant la publication. par les employés (Salsburg, 2001). Dans le travail qui a conduit à la publication des tableaux, Gossett a réalisé une première version des simulations de Monte Carlo (Stigler, 1999). Il a préparé 3 000 cartes étiquetées avec des mesures physiques prises sur des criminels, les a mélangées, puis réparties entre 750 groupes de taille 4, soit une taille d'échantillon bien inférieure à 30.
NOTRE RECOMMANDATION
Cette controverse s'apparente à l'argument «cinq c'est assez» par opposition à «huit n'est pas assez» abordé au chapitre 6, mais appliqué à la recherche sommative plutôt qu'à la recherche formative. Pour toute recherche, le nombre d'utilisateurs à tester dépend de l'objectif du test et du type de données que vous prévoyez de collecter. Le «nombre magique» 30 a une justification empirique, mais à notre avis, il est très faible. Comme vous pouvez le constater parmi les nombreux exemples cités dans ce livre dont la taille des échantillons n'est pas égale à 30 (parfois moins, parfois plus), nous ne tenons pas beaucoup à cette règle empirique. Comme décrit dans notre chapitre sur la taille de l'échantillon pour la recherche sommative, la taille de l'échantillon appropriée pour une étude dépend du type de distribution, de la variabilité attendue des données, des niveaux de confiance et de puissance souhaités,
Comme illustré à la Fig. 9.2, lorsqu’on utilise la distribution t avec de très petits échantillons (par exemple, avec des degrés de liberté inférieurs à 5), les très grandes valeurs de t compensent les faibles tailles d’échantillon en ce qui concerne le contrôle des erreurs de type I ( réclamer une différence est important quand ce n’est vraiment pas le cas). Avec des échantillons de tailles aussi petites, vos intervalles de confiance seront beaucoup plus larges que ceux que vous obtiendriez avec des échantillons plus grands. Mais une fois que vous avez plus de 5 degrés de liberté, il y a très peu de différence absolue entre la valeur de z et la valeur de t. Du point de vue de l'approche de t à z, il y a très peu de gain après 10 degrés de liberté.
Il n’est pas beaucoup plus compliqué d’utiliser la distribution t que la distribution z (vous devez simplement vous assurer d’utiliser la bonne valeur pour les degrés de liberté), et la raison du développement de la distribution t était: permettre l'analyse de petits échantillons. Il ne s’agit là que de l’un des moyens les moins évidents par lesquels les praticiens de la convivialité bénéficient de la science et de la pratique du brassage de la bière. Les historiens des statistiques considèrent généralement que la publication du test t de Student par Gossett est un événement marquant (Box, 1984; Cowles, 1989; Stigler, 1999). Dans une lettre à Ronald A. Fisher (l'un des pères des statistiques modernes) contenant une copie des premiers tableaux, Gossett écrivait: «Vous êtes probablement le seul homme à les utiliser» (Box, 1978). Gossett a eu beaucoup de bonnes choses, mais il s'est certainement trompé.
RÉFÉRENCES
Box, GEP (1984). L'importance de la pratique dans le développement des statistiques. Technometrics, 26 (1), 1-8.
Box, JF (1978). Fisher, la vie d'un scientifique. New York, NY: John Wiley.
Bradley, JV (1978). Robustesse? Journal britannique de psychologie mathématique et statistique, 31, 144-152.
Cohen, J. (1990). Les choses que j'ai apprises (jusqu'à présent). American Psychologist, 45 (12), 1304-1312.
Cowles, M. (1989). Statistiques en psychologie: une perspective historique. Hillsdale, NJ: Lawrence Erlbaum.
Salsburg, D. (2001). La dégustatrice: comment les statistiques ont révolutionné la science au XXe siècle. New York, NY: WH Freeman.
Stigler, SM (1999). Statistiques sur la table: L'histoire des concepts et des méthodes statistiques. Cambridge, MA: Presses universitaires de Harvard.