Je laisse ce paragraphe pour que les commentaires aient du sens: probablement l'hypothèse de normalité dans les populations d'origine est trop restrictive, et peut être abandonnée en se concentrant sur la distribution d'échantillonnage, et grâce au théorème de la limite centrale, en particulier pour les grands échantillons.
t
Comme vous le mentionnez, la distribution t converge vers la distribution normale à mesure que l'échantillon augmente, comme le montre ce graphique R rapide:
t
Donc, appliquer un test z serait probablement correct avec de grands échantillons.
Résoudre les problèmes avec ma réponse initiale. Merci, Glen_b pour votre aide avec le PO (les nouvelles erreurs d'interprétation probables sont entièrement les miennes).
- LA STATISTIQUE SUIT À LA DISTRIBUTION SOUS HYPOTHÈSES DE NORMALITÉ:
Si l'on fait abstraction de la complexité des formules pour un échantillon contre deux échantillons (appariés et non appariés), la statistique générale t se concentrant sur le cas de la comparaison d'une moyenne d'échantillon à une moyenne de population est la suivante:
t-test=X¯−μsn√=X¯−μσ/n√s2σ2−−−√=X¯−μσ/n−−√∑nx=1(X−X¯)2n−1σ2−−−−−−−−√(1)
Xμσ2
- (1) ∼N(1,0)
- (1)s2/σ2n−1∼1n−1χ2n−1(n−1)s2/σ2∼χ2n−1
- Le numérateur et le dénominateur doivent être indépendants.
t-statistic∼t(df=n−1)
- THÉORÈME DE LA LIMITE CENTRALE:
La tendance à la normalité de la distribution d'échantillonnage de l'échantillon signifie que la taille de l'échantillon augmente peut justifier l'hypothèse d'une distribution normale du numérateur même si la population n'est pas normale. Cependant, il n'influence pas les deux autres conditions (distribution khi carré du dénominateur et indépendance du numérateur par rapport au dénominateur).
Mais tout n'est pas perdu, dans ce post, il est expliqué comment le théorème de Slutzky soutient la convergence asymptotique vers une distribution normale même si la distribution chi du dénominateur n'est pas respectée.
- ROBUSTESSE:
Sur le document "Un regard plus réaliste sur les propriétés de robustesse et d'erreur de type II du test t pour s'écarter de la normalité de la population" par Sawilowsky SS et Blair RC dans Psychological Bulletin, 1992, Vol. 111, n ° 2, 352-360 , où ils ont testé des distributions moins idéales ou plus "réelles" (moins normales) pour la puissance et pour les erreurs de type I, les affirmations suivantes peuvent être trouvées: "Malgré la nature conservatrice en ce qui concerne le type Erreur du test t pour certaines de ces distributions réelles, il y a eu peu d'effet sur les niveaux de puissance pour la variété des conditions de traitement et des tailles d'échantillon étudiées. Les chercheurs peuvent facilement compenser la légère perte de puissance en sélectionnant une taille d'échantillon légèrement plus grande " .
" L'opinion dominante semble être que le test t pour échantillons indépendants est raisonnablement robuste, en ce qui concerne les erreurs de type I, à une forme de population non gaussienne tant que (a) les tailles d'échantillon sont égales ou presque, (b) l'échantillon les tailles sont assez grandes (Boneau, 1960, mentionne des tailles d'échantillon de 25 à 30), et (c) les tests sont bilatéraux plutôt que unilatéraux. Notez également que lorsque ces conditions sont remplies et que les différences entre l'alpha nominal et l'alpha réel le font se produisent, les écarts sont généralement de nature conservatrice plutôt que libérale. "
Les auteurs mettent l'accent sur les aspects controversés du sujet, et j'ai hâte de travailler sur certaines simulations basées sur la distribution log-normale mentionnée par le professeur Harrell. Je voudrais également proposer quelques comparaisons de Monte Carlo avec des méthodes non paramétriques (par exemple test U de Mann – Whitney). C'est donc un travail en cours ...
SIMULATIONS:
Avertissement: Ce qui suit est l'un de ces exercices pour "le prouver moi-même" d'une manière ou d'une autre. Les résultats ne peuvent pas être utilisés pour faire des généralisations (du moins pas par moi), mais je suppose que je peux dire que ces deux simulations MC (probablement erronées) ne semblent pas trop décourageantes quant à l'utilisation du test t dans les circonstances. décrit.
Erreur de type I:
n = 50μ = 0σ= 1
5 %4,5 %
En fait, le tracé de la densité des tests t obtenus semblait chevaucher le pdf réel de la distribution t:
La partie la plus intéressante était de regarder le "dénominateur" du test t, la partie qui était supposée suivre une distribution khi carré:
( n - 1 ) s2/ σ2= 98( 49( SD2UNE+ SD2UNE) ) / 98( eσ2- 1 )e2 μ + σ2
.
Ici, nous utilisons l'écart type commun, comme dans cette entrée Wikipedia :
SX1X2= ( n1- 1 )S2X1+ ( n2- 1 )S2X2n1+ n2- 2----------------------√
Et, de façon surprenante (ou non), l'intrigue était extrêmement différente du pdf chi carré superposé:
Erreur et alimentation de type II:
La distribution de la pression artérielle est log-normale possible , ce qui est extrêmement pratique pour mettre en place un scénario synthétique dans lequel les groupes de comparaison sont séparés en valeurs moyennes par une distance de pertinence clinique, par exemple dans une étude clinique testant l'effet d'une pression artérielle médicament se concentrant sur la TA diastolique, un effet significatif pourrait être considéré comme une baissedix mmHg (un écart-type d'environ 9 mmHg a été choisi):
Exécution de tests t de comparaison sur une simulation Monte Carlo par ailleurs similaire à celle des erreurs de type I entre ces groupes fictifs, et avec un niveau de signification de 5 % on se retrouve avec 0,024 % erreurs de type II, et une puissance de seulement 99 %.
Le code est ici .