Nous aimons la forme normale
Dans la plupart des cas, nous essayons de les faire agir comme d'habitude. Ce n'est pas le point de vue des classificateurs mais sa vue d'extraction des fonctionnalités!
Quelle transformation ?
Le critère principal dans le choix d'une transformation est: qu'est-ce qui fonctionne avec les données? Comme l'indiquent les exemples ci-dessus, il est important de considérer également deux questions.
Qu'est-ce qui a du sens sur le plan physique (biologique, économique, peu importe), par exemple en termes de limitation du comportement, car les valeurs deviennent très petites ou très grandes? Cette question conduit souvent à l'utilisation de logarithmes.
Pouvons-nous garder les dimensions et les unités simples et pratiques? Si possible, nous préférons des échelles de mesure faciles à penser.
La racine cubique d'un volume et la racine carrée d'une zone ont toutes deux des dimensions de longueur, loin de compliquer les choses, de telles transformations peuvent les simplifier. Les réciproques ont généralement des unités simples, comme mentionné précédemment. Souvent, cependant, des unités quelque peu compliquées sont un sacrifice qui doit être fait.
Quand utiliser quoi ?
Les transformations les plus utiles dans l'analyse de données d'introduction sont l'inverse, le logarithme, la racine cubique, la racine carrée et le carré. Dans ce qui suit, même si cela n'est pas souligné, il est supposé que les transformations ne sont utilisées que sur des plages sur lesquelles elles donnent comme résultats des nombres réels (finis).
- Réciproque : la réciproque, x à 1 / x, avec son frère la réciproque négative, x à -1 / x, est une transformation très forte avec un effet drastique sur la forme de la distribution. Il ne peut pas être appliqué à des valeurs nulles. Bien qu'il puisse être appliqué à des valeurs négatives, il n'est utile que si toutes les valeurs sont positives. L'inverse d'un rapport peut souvent être interprété aussi facilement que le rapport lui-même: Exemple:
- la densité de population (personnes par unité de surface) devient surface par personne
- personnes par médecin devient médecins par personne
- les taux d'érosion deviennent le temps d'éroder une profondeur unitaire
(En pratique, nous pourrions vouloir multiplier ou diviser les résultats de la prise de l'inverse par une constante, comme 1000 ou 10000, pour obtenir des nombres faciles à gérer, mais cela en soi n'a aucun effet sur l'asymétrie ou la linéarité.)
L'inverse inverse l'ordre entre les valeurs du même signe: le plus grand devient le plus petit, etc. L'inverse inverse préserve l'ordre entre les valeurs du même signe.
Logarithme : Le logarithme, x log 10 x, ou x log ex ou ln x, ou x log 2 x, est une transformation forte avec un effet majeur sur la forme de la distribution. Il est couramment utilisé pour réduire l'asymétrie droite et convient souvent aux variables mesurées. Il ne peut pas être appliqué à des valeurs nulles ou négatives. Une unité sur une échelle logarithmique signifie une multiplication par la base des logarithmes utilisés. Croissance ou déclin exponentiel.
- y= a e x p ( b x )
est rendu linéaire par -
sorte que la variable de réponse y doit être enregistrée. (Ici exp () signifie élever à la puissance e, environ 2,71828, qui est la base des logarithmes naturels). Un côté sur cette équation exponentielle de croissance ou de déclin:
, et telle sorte que a soit le montant ou le nombre lorsque x = 0. Si a et b> 0, alors y croît plus rapidement et un taux plus rapide (par exemple, intérêt composé ou croissance démographique incontrôlée), alors que si a> 0 et b <0, y diminue à un rythme de plus en plus lent (par exemple, désintégration radioactive).l n y= l n a + b xx = 0y= a e x p ( 0 ) = a
- Fonctions de puissance :
y= a xb sont rendus linéaires par
sorte que les variables y et x doivent être enregistrées. Un côté sur ces
fonctions de puissance : mettez , et pour ,l o gy= l o ga + b l o gX
x = 0b > 0
y= a xb= 0 donc la fonction de puissance pour b positif passe par l'origine, ce qui a souvent un sens physique, biologique ou économique. Pensez: zéro pour x implique-t-il zéro pour y? Ce
type de fonction de puissance est une forme qui convient
assez bien à de nombreux ensembles de données .
- Considérons les rapports y = p / q où p et q sont tous deux positifs dans la pratique.
Voici des exemples:
- Hommes / femmes
- Personnes à charge / travailleurs
- Longueur en aval / Longueur en aval
Alors y est quelque part entre 0 et l'infini, ou dans le dernier cas, entre 1 et l'infini. Si p = q, alors y = 1. De telles définitions conduisent souvent à des données asymétriques, car il existe une limite inférieure claire et aucune limite supérieure claire. Le logarithme, cependant, à savoir
log y = log p / q = log p - log q est quelque part entre -infini et infini et p = q signifie que log y = 0. Par conséquent, le logarithme d'un tel rapport est susceptible d'être distribué de façon plus symétrique.
Racine du cube: la racine du cube, x 1/3 . Il s'agit d'une transformation assez forte avec un effet substantiel sur la forme de distribution: elle est plus faible que le logarithme. Il est également utilisé pour réduire l'asymétrie droite et a l'avantage de pouvoir être appliqué à des valeurs nulles et négatives. Notez que la racine cubique d'un volume a les unités d'une longueur. Il est couramment appliqué aux données pluviométriques.
L'applicabilité à des valeurs négatives nécessite une note spéciale. Considérons
(2) (2) (2) = 8 et (-2) (- 2) (- 2) = -8. Ces exemples montrent que la
racine cubique d'un nombre négatif a un signe négatif et la même
valeur absolue que la racine cubique du nombre positif équivalent. Une propriété similaire est possédée par toute autre racine dont la puissance est l'
inverse d'un entier positif impair (puissances 1/3, 1/5, 1/7, etc.)
Cette propriété est un peu délicate. Par exemple, changez la puissance juste un smidgen de 1/3, et nous ne pouvons plus définir le résultat comme un produit de précisément trois termes. Cependant, la propriété est là pour être exploitée si elle est utile.
- Racine carrée : La racine carrée, x à = sqrt (x), est une transformation ayant un effet modéré sur la forme de distribution: elle est plus faible que le logarithme et la racine cubique. Il est également utilisé pour réduire l'asymétrie droite et présente également l'avantage de pouvoir être appliqué à des valeurs nulles. Notez que la racine carrée d'une zone a les unités d'une longueur. Il est couramment appliqué aux données comptées, surtout si les valeurs sont généralement plutôt petites.X(Une / 2 )
- Carré : Le carré, x à , a un effet modéré sur la forme de distribution et il pourrait être utilisé pour réduire l'asymétrie gauche. En
pratique, la raison principale de son utilisation est d'ajuster une réponse par une
fonction quadratique . Les quadratiques ont un
point tournant , soit un maximum soit un minimum, bien que le point tournant dans une fonction ajustée aux données puisse être bien au-delà des limites des
observations. La distance d'un corps à une origine est quadratique si ce corps se déplace sous une accélération constante, ce qui donne une
justification physique très claire pour l'utilisation d'un quadratique. Sinon, les
quadratiques sont généralement utilisés uniquement parce qu'ils peuvent imiter unX2
y= a + b x + c x2
relation dans la région de données. En dehors de cette région, ils peuvent
se comporter très mal, car ils prennent des valeurs arbitrairement grandes pour des valeurs extrêmes de x, et à moins que l'ordonnée à l'origine ne soit contrainte à 0, ils peuvent se comporter de manière irréaliste près de l'origine.
- La mise au carré n'a généralement de sens que si la variable concernée est nulle ou positive, étant donné que et sont identiques.( - x )2X2