Une petite taille d'échantillon peut-elle provoquer une erreur de type 1?

J'ai appris qu'une petite taille d'échantillon peut entraîner une alimentation insuffisante et une erreur de type 2. Cependant, j'ai le sentiment que les petits échantillons ne sont généralement pas fiables et peuvent conduire à tout type de résultat par hasard. Est-ce vrai?

hypothesis-testing small-sample

— même
source

J'ai une aversion pour la notation mathématique inutile, j'ai donc édité le titre, pourriez-vous s'il vous plaît vérifier que je n'ai pas changé le sens en le changeant?

— mpiktas

Assurez-vous également de parler de tests d'hypothèse (tests de Neyman-Pearson) et non de tests de signification (tests de Fisher). Ces approches sont généralement mixtes même s'il n'y a pas de notion d'erreur dans la seconde, et les usages appropriés devraient être différents car ils conduisent à différents types de conclusion.

— Seb

Si vous utilisez un test asymptotique, oui, c'est possible. Sinon, non - le test est défini pour contrôler le taux d'erreur de type 1 (c'est-à-dire ).

α

$\alpha$

— Macro

Mais n'est-ce pas vrai, si vous retournez des pièces deux fois, vous êtes plus susceptible de donner un résultat asymétrique (2 mêmes côtés (100%)), que lorsque vous retournez 100 fois, ce qui entraînera très probablement environ 1 / 2, 1/2. Cela n'indique-t-il pas que plus la taille est petite, plus vous risquez de rencontrer une erreur de type I?

Réponses:

En règle générale, une petite taille d'échantillon n'augmentera pas le taux d'erreur de type I pour la simple raison que le test est conçu pour contrôler le taux de type I. (Il existe des exceptions techniques mineures associées à des résultats discrets, qui peuvent empêcher le taux nominal de type I d'être atteint précisément, en particulier avec de petits échantillons.)

Il y a un principe important ici: si votre test a une taille acceptable (= taux nominal de type I) et une puissance acceptable pour l'effet que vous recherchez, alors même si la taille de l'échantillon est petite, c'est ok.

Le danger est que si nous en savons autrement peu sur la situation - peut-être que ce sont toutes les données que nous avons - alors nous pourrions être préoccupés par les erreurs de "Type III": c'est-à-dire les spécifications erronées du modèle. Ils peuvent être difficiles à vérifier avec de petits ensembles d'échantillons.

Comme exemple pratique de l'interaction des idées, je partagerai une histoire. Il y a longtemps, on m'a demandé de recommander une taille d'échantillon pour confirmer un nettoyage environnemental. C'était pendant la phase de pré-nettoyage avant d'avoir des données. Mon plan prévoyait d'analyser les quelque 1000 échantillons qui seraient obtenus pendant le nettoyage (pour établir que suffisamment de terre avait été enlevée à chaque emplacement) pour évaluer la moyenne et la variance post-nettoyage de la concentration de contaminants. Ensuite (pour simplifier grandement), j'ai dit que nous utiliserions une formule de manuel - basée sur la puissance et la taille de test spécifiées - pour déterminer le nombre d'échantillons de confirmation indépendants qui seraient utilisés pour prouver que le nettoyage a réussi.

Ce qui a rendu ce moment mémorable, c'est qu'après le nettoyage, la formule a indiqué qu'elle n'utilisait que 3 échantillons. Du coup, ma recommandation n'avait pas l'air très crédible!

La raison de ne nécessiter que 3 échantillons est que le nettoyage était agressif et fonctionnait bien. Il a réduit les concentrations moyennes de contaminants à environ 100 ppm, ce qui est systématiquement inférieur à l'objectif de 500 ppm.

En fin de compte, cette approche a fonctionné parce que nous avions obtenu les 1000 échantillons précédents (bien que de qualité analytique inférieure: ils avaient une plus grande erreur de mesure) pour établir que les hypothèses statistiques formulées étaient en fait bonnes pour ce site. C'est ainsi que le potentiel d'erreur de type III a été géré.

Une autre torsion pour votre considération: sachant que l'agence de réglementation n'approuverait jamais d'utiliser seulement 3 échantillons, j'ai recommandé d'obtenir 5 mesures. Ceux-ci devaient être constitués de 25 échantillons aléatoires de l'ensemble du site, composés par groupes de 5. Statistiquement, il n'y aurait que 5 chiffres dans le test d'hypothèse final, mais nous avons obtenu un pouvoir plus important pour détecter un «point chaud» isolé en prenant 25 échantillons. Cela met en évidence la relation importante entre le nombre de nombres utilisés dans le test et la façon dont ils ont été obtenus. La prise de décision statistique ne se limite pas aux algorithmes avec des nombres!

À mon grand soulagement, les cinq valeurs composites ont confirmé que l'objectif de nettoyage avait été atteint.

— whuber
source

(+1) grande histoire sur le nettoyage agressif et les erreurs de type III , ce serait bien si cela était également pertinent pour les séries chronologiques économiques. Pour les modèles déterministes ou les modèles avec un faible rapport de bruit, une petite taille d'échantillon à mon humble avis ne sera pas le plus gros problème (par rapport à un ensemble énorme de données d'échantillonnage indépendantes très probablement très bruyantes, même les composants principaux sont difficiles avec ceux-ci).

— Dmitrij Celov

+1, pour ceux qui sont intéressés à mieux comprendre les « exceptions techniques associées à des résultats discrets » mentionnés au premier alinéa, je discuterai les ici: Comparaison et contraste p-valeurs, les niveaux de signification et erreur de type I .

— gung - Rétablir Monica

+1, excellent exemple de la raison pour laquelle vous ne pouvez pas vous lancer dans une taille d'échantillon utile sans informations clés.

— Freya Harrison

Une autre conséquence d'un petit échantillon est l'augmentation de l'erreur de type 2.

Nunnally a démontré dans l'article "La place des statistiques en psychologie", 1960, que les petits échantillons ne parviennent généralement pas à rejeter une hypothèse nulle. Ces hypothèses sont des hypothèses dont certains paramètres sont égaux à zéro, et sont connues pour être fausses dans l'expérience considérée.

Au contraire, des échantillons trop grands augmentent l'erreur de type 1 car la valeur p dépend de la taille de l'échantillon, mais le niveau de signification alpha est fixe. Un test sur un tel échantillon rejettera toujours l'hypothèse nulle. Lisez «L'insignifiance des tests de signification statistique» de Johnson et Douglas (1999) pour avoir un aperçu de la question.

Ce n'est pas une réponse directe à la question mais ces considérations sont complémentaires.

— Seb
source

+1 pour avoir

— signalé

-1, le commentaire selon lequel "des échantillons trop grands augmentent l'erreur de type 1" est incorrect. Vous pouvez confondre signification statistique et signification pratique , dans la mesure où une situation peut exister où le véritable effet n'est pas exactement 0, mais si petit qu'il est sans conséquence, et nous considérerions le «vrai» nul à des fins pratiques . Dans ce cas, le nul serait rejeté plus (par exemple) 5% du temps, et plus souvent avec une augmentation de N. Cependant, à proprement parler, l'hypothèse nulle selon laquelle le véritable effet est exactement 0 est, par stipulation, fausse. Ainsi, ces rejets ne sont pas réellement des erreurs de type I.

— gung - Réintégrer Monica