P(Mi<Fj)>12i,jMii
Bien sûr, d'autres interprétations de la phrase sont possibles (c'est ce qu'est l'ambiguïté, après tout) et certaines de ces autres possibilités pourraient être cohérentes avec votre raisonnement.
[Nous avons également la question de savoir si nous parlons d'échantillons ou de populations ... "la plupart des hommes [...] la plupart des femmes" semble être une déclaration de population (sur une population de périodes potentielles), mais nous n'avons observé que des périodes que nous semblons traiter comme un échantillon, nous devons donc faire attention à l'étendue de notre allégation.]
P(Mi<Fj)>12M˜<F˜
[Je ne dis pas que vous vous trompez en pensant que la proportion de paires MF aléatoires où l'homme était plus rapide que la femme est supérieure à 1/2 - vous avez presque certainement raison. Je dis juste que vous ne pouvez pas le dire en comparant les médianes. Vous ne pouvez pas non plus le dire en examinant la proportion dans chaque échantillon au-dessus ou au-dessous de la médiane de l'autre échantillon. Il faudrait faire une comparaison différente.]
12
Exemple:
Ensemble de données A:
1.58 2.10 16.64 17.34 18.74 19.90 1.53 2.78 16.48 17.53 18.57 19.05
1.64 2.01 16.79 17.10 18.14 19.70 1.25 2.73 16.19 17.76 18.82 19.08
1.42 2.56 16.73 17.01 18.86 19.98
Ensemble de données B:
3.35 4.62 5.03 20.97 21.25 22.92 3.12 4.83 5.29 20.82 21.64 22.06
3.39 4.67 5.34 20.52 21.10 22.29 3.38 4.96 5.70 20.45 21.67 22.89
3.44 4.13 6.00 20.85 21.82 22.05
Ensemble de données C:
6.63 7.92 8.15 9.97 23.34 24.70 6.40 7.54 8.24 9.37 23.33 24.26
6.18 7.74 8.63 9.62 23.07 24.80 6.54 7.37 8.37 9.09 23.22 24.16
6.57 7.58 8.81 9.08 23.43 24.45
(Les données sont ici , mais utilisées à des fins différentes là-bas - à ma connaissance, j'ai généré celle-ci moi-même)
Notez que la proportion de A <B est 2/3, la proportion de A <C est 5/9 et la proportion de B <C est 2/3. A vs B et B vs C sont significatifs au niveau de 5% mais nous pouvons atteindre n'importe quel niveau de signification simplement en ajoutant suffisamment de copies des échantillons. On peut même éviter les égalités, en dupliquant les échantillons mais en ajoutant une gigue suffisamment petite (suffisamment plus petite que le plus petit écart entre les points)
Les médianes de l'échantillon vont dans l'autre sens: médiane (A)> médiane (B)> médiane (C)
Encore une fois, nous pourrions obtenir une signification pour une comparaison des médianes - à n'importe quel niveau de signification - en répétant les échantillons.
Pour le relier au problème actuel, imaginez que A est "le temps des femmes" et B est "le temps des hommes". Ensuite, le temps médian des hommes est plus rapide, mais un homme choisi au hasard sera 2/3 du temps plus lent qu'une femme choisie au hasard.
En nous inspirant des échantillons A et C, nous pouvons générer un plus grand ensemble de données (en R) comme suit:
n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))
La médiane de F sera d'environ 16,25 tandis que la médiane de M sera d'environ 11,25 mais la proportion de cas où F <M sera de 5/9.
n13
P(F<med(M))=23P(M>med(F))=23med(M)<med(F)