Voyons d'abord ce qui se passe généralement lorsque nous prenons des journaux de quelque chose qui est correct.
La ligne supérieure contient des histogrammes pour des échantillons de trois distributions différentes, de plus en plus asymétriques.
La ligne du bas contient des histogrammes pour leurs journaux.
yXz
Si nous voulions que nos distributions paraissent plus normales, la transformation a définitivement amélioré les deuxième et troisième cas. Nous pouvons voir que cela pourrait aider.
Alors pourquoi ça marche?
Notez que lorsque nous regardons une image de la forme distributionnelle, nous ne considérons pas la moyenne ou l'écart type - cela affecte juste les étiquettes sur l'axe.
Nous pouvons donc imaginer regarder une sorte de variables "standardisées" (tout en restant positives, toutes ont une localisation et une répartition similaires, par exemple)
La prise de journaux "attire" des valeurs plus extrêmes à droite (valeurs élevées) par rapport à la médiane, tandis que les valeurs à l'extrême gauche (valeurs faibles) ont tendance à s'étirer, plus loin de la médiane.
Xyz
y
Mais lorsque nous prenons des bûches, elles sont tirées vers la médiane; après avoir pris les journaux, il n'y a que 2 plages interquartiles au-dessus de la médiane.
y
Ce n'est pas par hasard que les rapports 750/150 et 150/30 sont tous deux de 5 lorsque log (750) et log (30) se sont retrouvés à peu près à la même distance de la médiane de log (y). C'est ainsi que les journaux fonctionnent - convertissant des ratios constants en différences constantes.
Ce n'est pas toujours le cas que le journal aidera sensiblement. Par exemple, si vous prenez par exemple une variable aléatoire lognormale et que vous la déplacez sensiblement vers la droite (c'est-à-dire que vous y ajoutez une grande constante) de sorte que la moyenne devienne grande par rapport à l'écart-type, alors prendre le log de cela ne fera que très peu de différence pour la forme. Ce serait moins asymétrique - mais à peine.
Mais d'autres transformations - la racine carrée, par exemple - tireront également de grandes valeurs comme ça. Pourquoi les journaux en particulier sont-ils plus populaires?
- 0,162
De nombreuses données économiques et financières se comportent ainsi, par exemple (effets constants ou quasi constants sur l'échelle des pourcentages). L'échelle logarithmique a beaucoup de sens dans ce cas. En outre, en raison de cet effet d'échelle en pourcentage. la dispersion des valeurs tend à être plus importante à mesure que la moyenne augmente - et la prise de grumes a également tendance à stabiliser la propagation. C'est généralement plus important que la normalité. En effet, les trois distributions du diagramme d'origine proviennent de familles où l'écart-type augmentera avec la moyenne, et dans chaque cas, la prise de journaux stabilise la variance. [Cependant, cela ne se produit pas avec toutes les bonnes données asymétriques. C'est juste très courant dans le type de données qui surgit dans des domaines d'application particuliers.]
Il y a aussi des moments où la racine carrée rendra les choses plus symétriques, mais cela a tendance à se produire avec des distributions moins asymétriques que celles que j'utilise dans mes exemples ici.
Nous pourrions (assez facilement) construire un autre ensemble de trois exemples plus légèrement asymétriques à droite, où la racine carrée a fait un oblique gauche, un symétrique et le troisième était toujours asymétrique à droite (mais un peu moins asymétrique qu'auparavant).
Qu'en est-il des distributions asymétriques à gauche?
Si vous avez appliqué la transformation logarithmique à une distribution symétrique, elle aura tendance à la rendre asymétrique à gauche pour la même raison qu'elle crée souvent une asymétrie à droite plus symétrique - voir la discussion connexe ici .
De même, si vous appliquez la transformation logarithmique à quelque chose qui est déjà laissé de biais, cela aura tendance à le rendre encore plus gauche, en tirant les choses au-dessus de la médiane encore plus étroitement et en étirant les choses en dessous de la médiane encore plus fort.
La transformation du journal ne serait donc pas utile alors.
Voir aussi transformations de pouvoir / échelle de Tukey. Les distributions laissées de travers peuvent être rendues plus symétriques en prenant une puissance (supérieure à 1 - au carré par exemple), ou en exponentiant. S'il a une limite supérieure évidente, on peut soustraire des observations de la limite supérieure (donnant un résultat asymétrique à droite) et ensuite tenter de transformer cela.