Puis-je utiliser un score Z avec des données asymétriques et non normales? [fermé]


12

J'ai travaillé avec des données de temps de cycle de processus et une mise à l'échelle en utilisant le score z standard afin de comparer entre les parties du temps de cycle complet.

Dois-je utiliser une autre transformation car les données sont fortement asymétriques à droite / non normales? (Les «valeurs aberrantes» ne peuvent jamais prendre de temps négatif et prennent souvent beaucoup plus de temps que la «moyenne»)

L'utilisation du z-score semble toujours "fonctionner" ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

5
Que demandez-vous exactement? Bien sûr, vous pouvez toujours calculer le score , mais pourquoi essayez-vous de l'utiliser? Le nombre d'écarts-types par rapport à la moyenne (qui est le score ) peut ne pas être une statistique particulièrement utile dans certaines situations. zzz
Macro

Réponses:


5

Si X est fortement asymétrique, la statistique Z ne sera pas normalement distribuée (ou t si l'écart-type doit être estimé. Ainsi, les centiles de Z ne seront pas normaux normaux. En ce sens, cela ne fonctionne pas.


À ma connaissance, X étant très asymétrique, la taille de l'échantillon n'était pas assez grande (théorème de la limite centrale). Cependant, je ne sais pas si la population elle-même doit être normale, pour que la statistique Z fonctionne. Le fait-il?
Andrzej Gis

1
Le PO parle de la distribution de la population et non de la distribution de la moyenne. La taille de l'échantillon et le théorème de la limite centrale ne s'appliquent donc pas.
Michael R. Chernick

2

Le code R fonctionnera, mais le score z sera à peu près aussi significatif que la phrase «Les raisins téléphonent légèrement au stylo plume». C'est une phrase valide, mais ne transmet rien de significatif.

À en juger par votre code R, il semble que vous pensez que vos données sont distribuées par Weibull. Dans ce cas, j'utiliserais simplement la statistique de Weibull et je ne mettrais rien à l'échelle sauf si vous en avez absolument besoin. Même si les z-scores sont enseignés dans chaque classe de statistiques d'introduction, cela ne signifie pas que vous devez les utiliser tout le temps, et surtout pas si vous n'avez pas de données symétriques.


1

Si la population n'est pas normalement distribuée. Dans ce cas, la distribution de la barre (X) {moyenne de l'échantillon} s'approche d'une distribution normale selon le théorème de la limite centrale; pour un échantillon de grande taille. Bien que théoriquement, nous disons que nous utilisons Student's-t mais pour des valeurs plus élevées de n (taille de l'échantillon ou degré de liberté), la distribution t et la distribution Z sont presque égales.


-4

VOS DONNÉES NE DOIVENT PAS ÊTRE NORMALES POUR UN Z-TEST. (TOWNEND, 2002) TOUTEFOIS, LES VARIANCES DEVRAIENT ÊTRE APPROXIMATIVEMENT ÉGALES. POUR VÉRIFIER QUE EFFECTUER UN F-TEST SUR VOS DEUX ENSEMBLES ET SI VOS VARIANCES SONT APPROXIMATIVEMENT ÉGALES, LE RÉSULTAT DU TEST Z EST UTILE. SI NON, TRANSFORMEZ LES DONNÉES.


9
La question concerne la transformation d'une variable et non un test, donc je ne pense pas que votre réponse s'applique. En outre, il est probablement plus informatif si vous donnez la référence complète au lieu d'une simple référence nom-année et que certaines personnes s'opposent à CRIER.
Maarten Buis

Je suis d'accord avec @MaartenBuis, mais contrairement à lui, je voterai contre cela.
Erik
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.