Quand l'asymétrie est-elle une mauvaise chose à avoir? Les distributions symétriques (généralement mais pas toujours: par exemple, pas pour la distribution de Cauchy) ont une médiane, un mode et une moyenne très proches les uns des autres. Considérez donc, si nous voulons mesurer l'emplacement d'une population, il est utile d'avoir la médiane, le mode et la moyenne proches les uns des autres.
Par exemple, si nous prenons le logarithme de la distribution des revenus , nous réduisons suffisamment l'asymétrie pour pouvoir obtenir des modèles utiles de localisation des revenus. Cependant, nous aurons toujours une queue droite plus lourde que ce que nous voulons vraiment. Pour réduire cela davantage, nous pourrions utiliser une distribution de Pareto . La distribution de Pareto est similaire à une transformation log-log des données. Désormais, les distributions de Pareto et log-normale ont des difficultés dans la partie inférieure de l'échelle des revenus. Par exemple, les deux souffrent deln0 = - ∞. Le traitement de ce problème est couvert par des transformées de puissance .
Exemple de 25 revenus en kilo dollars dérobés au www.
k$ lnk$
28 3.33220451
29 3.36729583
35 3.555348061
42 3.737669618
42 3.737669618
44 3.784189634
50 3.912023005
52 3.951243719
54 3.988984047
56 4.025351691
59 4.077537444
78 4.356708827
84 4.430816799
90 4.49980967
95 4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514
L'asymétrie de la première colonne est de 0,99 et celle de la seconde de -0,05. La première colonne n'est probablement pas normale (Shapiro-Wilk p = 0,04) et la seconde n'est pas significativement non normale (p = 0,57).
First column Mean 90.0 (95% CI, 68.6 to 111.3) Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)
Donc, la question est, si vous êtes une personne au hasard ayant l'un des gains énumérés, que gagnez-vous probablement? Est-il raisonnable de conclure que vous gagneriez 90 000 $ ou plus que la médiane de 84 000 $? Ou est-il plus probable de conclure que même la médiane est biaisée comme mesure de la localisation et queexp[ signifie ln( k $ ) ] de 76,7 k, ce qui est inférieur à la médiane, est également plus raisonnable comme estimation?
Évidemment, le log-normal ici est un meilleur modèle et le logarithme moyen nous donne une meilleure mesure de l'emplacement. Que cela soit bien connu, sinon entièrement compris, est illustré par la phrase «Je prévois recevoir un salaire à 5 chiffres».