Pertinence du test de classement signé par Wilcoxon

11

J'ai fouillé un peu dans les archives de Cross Validated et je n'ai pas semblé trouver de réponse à ma question. Ma question est la suivante: Wikipedia donne trois hypothèses qui doivent être vérifiées pour le test de classement signé de Wilcoxon (légèrement modifié pour mes questions):

Soit Zi = Xi-Yi pour i = 1, ..., n.

Les différences Zi sont supposées indépendantes.
(a.) Chaque Zi provient de la même population continue, et (b.) chaque Zi est symétrique par rapport à une médiane commune;
Les valeurs que représentent Xi et Yi sont ordonnées ... donc les comparaisons «supérieur à», «inférieur à» et «égal à» sont utiles.

Cependant, la documentation de? Wilcox.test dans R semble indiquer que (2.b) est en fait quelque chose qui est testé par la procédure:

"... si x et y sont donnés et que l'appariement est VRAI, un test de rang signé par Wilcoxon de la valeur nulle que la distribution ... de x - y (dans le cas de l'échantillon à deux paires) est symétrique par rapport à mu est effectué."

Cela me semble comme si le test est effectué pour l'hypothèse nulle que "Z est distribué symétriquement autour de mu médian = SomeMu" - de telle sorte que le rejet du nul pourrait être soit un rejet de la symétrie soit un rejet que le mu autour duquel Z est symétrique est SomeMu.

Est-ce une compréhension correcte de la documentation R pour wilcox.test? La raison pour laquelle cela est important, bien sûr, c'est que je fais un certain nombre de tests de différence par paires sur certaines données avant et après ("X" et "Y" ci-dessus). Les données «avant» et «après» individuellement sont fortement asymétriques, mais les différences ne sont pas autant asymétriques (bien qu'elles soient encore quelque peu asymétriques). J'entends par là que les données "avant" ou "après" considérées seules ont une asymétrie ~ 7 à 21 (selon l'échantillon que je regarde), tandis que les données "différences" ont une asymétrie ~ = 0,5 à 5. Toujours asymétriques, mais pas autant.

Si une asymétrie dans mes données de "différences" fait que le test de Wilcoxon me donne des résultats faux / biaisés (comme l'article Wikipedia semble l'indiquer), alors l'asymétrie pourrait être une grande préoccupation. Si, cependant, les tests de Wilcoxon testent réellement si la distribution des différences est "symétrique autour de mu = SomeMu" (comme semble l'indiquer? Wilcox.test), alors cela est moins préoccupant.

Ainsi mes questions sont:

Quelle interprétation ci-dessus est correcte? Est-ce que l'asymétrie dans ma distribution des «différences» va biaiser mon test de Wilcoxon?
Si l'asymétrie est une préoccupation: "Quelle est l'asymétrie?"
Si les tests de classement signés par Wilcoxon semblent vraiment inappropriés ici, des suggestions sur ce que je devrais utiliser?

Merci beaucoup. Si vous avez d'autres suggestions sur la façon dont je pourrais faire cette analyse, je suis plus qu'heureux de les entendre (bien que je puisse également ouvrir un autre fil à cet effet). Aussi, c'est ma première question sur la validation croisée; si vous avez des suggestions / commentaires sur la façon dont j'ai posé cette question, je suis ouvert à cela aussi!

Un peu d'histoire: j'analyse un ensemble de données qui contient des observations sur ce que j'appellerai des "erreurs de production ferme". J'ai une observation sur les erreurs survenant dans le processus de production avant et après une inspection surprise, et l'un des objectifs de l'analyse est de répondre à la question "L'inspection fait-elle une différence dans le nombre d'erreurs observées?"

L'ensemble de données ressemble à ceci:

ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD
0123,1,1,1,0,1,1,1,0 
2345,1,0,0,0,0,1,1,0
6789,2,1,0,1,0,1,0,0
1234,8,8,0,0,1,0,0,0

Il y a environ 4000 observations. Les autres variables sont des observations catagoriques qui décrivent les caractéristiques des entreprises. La taille peut être petite, moyenne ou grande, et chaque entreprise en est une et une seule. Les entreprises peuvent être tout ou partie des «types».

On m'a demandé d'effectuer des tests simples pour voir s'il y avait des différences statistiquement significatives dans les taux d'erreur observés avant et après les inspections pour toutes les entreprises et divers sous-groupes (en fonction de la taille et du type). Les tests T étaient sortis car les données étaient gravement biaisées avant et après, par exemple, dans R, les données avant ressemblaient à ceci:

summary(errorsBefore)
# Min.  1st Qu.  Median   Mean  3rd Qu.    Max
# 0.000  0.000    4.000  12.00    13.00  470.0

(Ceux-ci sont constitués - je crains de ne pas pouvoir publier les données réelles ou toute manipulation réelle à cause de problèmes de propriété / confidentialité - mes excuses!)

Les différences appariées étaient plus centralisées mais toujours pas très bien ajustées par une distribution normale - beaucoup trop culminée. Les données sur les différences ressemblaient à ceci:

summary(errorsBefore-errorsAfter)
# Min.   1st Qu.  Median   Mean  3rd Qu.    Max
# -110.0  -2.000   0.000  0.005   2.000   140.0

Il a été suggéré d'utiliser un test de classement signé par Wilcoxon, et après une brève persusale de? Wilcox.test et Wikipedia, et ici, cela semble être le test à utiliser. Compte tenu des hypothèses ci-dessus, je pense que (1) est bien compte tenu du processus de génération de données. L'hypothèse (2.a) n'est pas strictement vraie pour mes données, mais la discussion ici: Alternative au test de Wilcoxon lorsque la distribution n'est pas continue? semblait indiquer que ce n'était pas trop une préoccupation. L'hypothèse (3) est très bien. Ma seule préoccupation (je crois) est l'Assomption (2.b).

Une note supplémentaire , quelques années plus tard: j'ai finalement suivi un excellent cours de statistiques non paramétriques et j'ai passé beaucoup de temps sur les tests de classement. Dans l'hypothèse (2.a), «chaque Zi provient de la même population continue», l'idée est que les deux échantillons doivent provenir de populations de variance égale - cela s'avère extrêmement important, pratiquement parlant. Si vous avez des inquiétudes au sujet de la variance différente dans vos populations (à partir de laquelle vous tirez les échantillons), vous devriez être préoccupé par l'utilisation de WMW.

r hypothesis-testing

— CompEcon
source

Merci pour les deux réponses! Ils m'ont tous deux aidé de façon assez égale. J'aurais "choisi les deux" si j'avais pu. Mike m'a orienté vers une partie de la compréhension théorique, ce qui était très utile conceptuellement, même si Aniko répondait un peu plus directement à ma question d'origine. Merci à vous deux!

— CompEcon

8

Wikipedia vous a induit en erreur en déclarant "... si x et y sont donnés et que l'appariement est VRAI, un test de classement signé par Wilcoxon de la valeur nulle que la distribution ... de x - y (dans le cas de l'échantillon apparié deux) est symétrique à propos de mu est effectuée. "

Le test détermine si les valeurs RANK-TRANSFORMED de sont symétriques autour de la médiane que vous spécifiez dans votre hypothèse nulle (je suppose que vous utiliseriez zéro). L'asymétrie n'est pas un problème, car le test de rang signé, comme la plupart des tests non paramétriques, est "sans distribution". Le prix que vous payez pour ces tests est souvent une puissance réduite, mais il semble que vous ayez un échantillon suffisamment grand pour surmonter cela. $z_i = x_i - y_i$

Une alternative «que diable» au test de somme de rang pourrait être d'essayer une transformation simple comme et au cas où ces mesures pourraient suivre à peu près une distribution log-normale - donc le journal les valeurs doivent ressembler à des "clochettes". Ensuite, vous pouvez utiliser au test et vous convaincre (et votre patron qui n'a pris que les statistiques commerciales) que le test de somme de classement fonctionne. Si cela fonctionne, il y a un bonus: le test t sur les moyennes des données lognormales est une comparaison des médianes pour les mesures originales, non transformées. $\ln(x_i)$ $\ln(y_i)$

Moi? Je ferais les deux, et tout ce que je pourrais préparer (test de rapport de vraisemblance sur le nombre de poissons par taille d'entreprise?). Le test d'hypothèse consiste à déterminer si les preuves sont convaincantes, et certaines personnes prennent beaucoup de conviction.

— Mike Anderson
source

Ah, ça a beaucoup de sens. Surtout maintenant que je suis rentré chez moi et que j'ai sorti mon vieux manuel DeGroot & Schervish, qui contient une belle description de ce que ces tests de signes font réellement. Fantastique. Et merci pour les réflexions générales sur les tests d'hypothèses :) J'aime la perspective. Une remarque mineure: la partie que vous notez comme trompeuse provient en fait de R, de la documentation de wilcox.test. C'est un peu dérangeant pour moi ...

— CompEcon

9

Wikipédia et la page d'aide de R sont en quelque sorte corrects et essaient de dire la même chose, ils le disent simplement différemment.

L'article de Wikipédia énonce les hypothèses comme (médiane = 0) vs (médiane! = 0), et dit que vous pouvez conclure cela à partir du test si les différences ont une distribution symétrique (+ les autres hypothèses).

La page d'aide R est plus spécifique, elle énonce les hypothèses comme (médiane = 0 et les différences ont une distribution symétrique) vs (au moins l'une d'entre elles est fausse). Il a donc déplacé une hypothèse dans l'hypothèse nulle. Je pense qu'ils l'ont fait pour souligner le besoin de symétrie: avec des différences asymétriques, le test de rang signé rejettera l'hypothèse nulle même si la médiane est morte. Si vous lisez un manuel, cela pourrait également vous dire que l'hypothèse nulle testée est P (X> Y) = 0,5 - le reste en fait vient juste de cela.

En termes d'application, la question est bien sûr de savoir si vous vous souciez spécifiquement de la médiane (et puis l'asymétrie est un problème, et le test médian est une alternative possible), ou si vous vous souciez de la distribution entière, puis P (X> y)! = 0,5 indique des changements.

— Aniko
source

1

Ok, ça a du sens. Merci pour la contribution! Je remarque que la page Wikipédia du test médian indique que le test de Mann-Whitney-U non apparié est préféré. Cela me fait immédiatement penser que je suis en quelque sorte de retour où j'ai commencé, pensant que le test de Wilcoxon apparié utilise en quelque sorte plus d'informations. Peut-être que ce que j'essaie vraiment de réfléchir, c'est ce que vous voulez dire lorsque vous dites "se préoccuper spécifiquement de la médiane ... ou de l'ensemble de la distribution". Je me soucie de la distribution entière, mais je la caractérise à travers la médiane ..

— CompEcon