Normalisation vs mise à l'échelle


46

Quelle est la différence entre les données "Normalisation" et les données "Mise à l'échelle"? Jusqu'à présent, je pensais que les deux termes faisaient référence au même processus, mais je réalise maintenant qu'il y a quelque chose de plus que je ne sais pas / ne comprends pas. De même, s'il existe une différence entre Normalisation et Mise à l'échelle, quand devrions-nous utiliser la normalisation mais pas la Mise à l'échelle et vice versa?

S'il vous plaît élaborer avec un exemple.


6
Normaliser signifie généralement transformer vos observations en f ( x ) (où f est une fonction mesurable, généralement continue) de sorte qu'elles aient l'air normalement distribuées . Certains exemples de transformations permettant de normaliser des données sont les transformations de puissance . La mise à l'échelle signifie simplement que f ( x ) = c x , c R , c'est-à-dire multiplier vos observations par une constante c qui modifie l'échelle (par exemple de nanomètres en kilomètres). xf(x)ff(x)=cxcRc


la normalisation est aussi une méthode de mise à l'échelle, identique à la normalisation

Je n'ai pas assez de réputation sur les statistiques pour répondre. Je pense que le titre de votre question devrait être Normalization vs. Standardization, puisque ces deux approches sont différentes du redimensionnement. La normalisation redimensionne les valeurs dans la plage 0 et 1, tandis que la normalisation déplace la distribution pour avoir 0 comme moyenne et 1 comme écart-type.
Hamid Heydarian le

Réponses:


24

Je ne suis pas au courant d'une définition «officielle» et même si elle existe, vous ne devriez pas y faire confiance car vous la verrez être utilisée de manière incohérente dans la pratique.

Ceci étant dit, la mise à l'échelle en statistique signifie généralement une transformation linéaire de la forme .f(x)=ax+b

Normaliser peut signifier soit d'appliquer une transformation de sorte que les données transformées soient approximativement normalement distribuées, mais cela peut aussi simplement signifier de placer différentes variables sur une échelle commune. La normalisation, qui consiste à soustraire la moyenne et à la diviser par l’écart type, est un exemple de l’utilisation ultérieure. Comme vous pouvez le constater, c’est aussi un exemple de mise à l’échelle. Un exemple pour le premier serait de prendre le journal pour les données distribuées lognormales.

Mais ce que vous devriez enlever, c'est que lorsque vous le lisez, vous devriez chercher une description plus précise de ce que l'auteur a fait. Parfois, vous pouvez l'obtenir à partir du contexte.


15

La mise à l'échelle est un choix personnel pour que les chiffres soient corrects, par exemple entre zéro et un, ou un cent. Par exemple, convertir des données exprimées en millimètres en mètres parce que c'est plus pratique, ou impérial en métriques.

Bien que la normalisation concerne l’adaptation à un «standard» externe - la norme locale - telle que l’élimination de la valeur moyenne et la division par l’écart type de l’échantillon, par exemple pour que vos données triées puissent être comparées à une normale ou à un cumul de Poisson. peu importe.

Donc, si un conférencier ou un responsable veut que les données soient «normalisées», cela signifie «redimensionnez-les à ma façon » ;-)


10

Je ne sais pas si vous voulez dire exactement cela, mais je vois beaucoup de gens se référer à la normalisation, ce qui signifie normalisation des données. La normalisation est en train de transformer vos données afin qu’elles aient une moyenne de 0 et un écart-type de 1:

x <- (x - mean(x)) / sd(x)

Je vois aussi des gens utiliser le terme normalisation pour la mise à l'échelle des données, comme pour transformer vos données en une plage de 0 à 1:

x <- (x - min(x)) / (max(x) - min(x))

Cela peut être déroutant!

Les deux techniques ont leurs avantages et leurs inconvénients. Lorsque vous redimensionnez un jeu de données avec trop de valeurs éloignées, vos données non aberrantes risquent de se retrouver dans un très petit intervalle. Par conséquent, si votre jeu de données comporte trop de données aberrantes, vous pouvez envisager de le normaliser. Néanmoins, lorsque vous le ferez, vous obtiendrez des données négatives (parfois, vous ne le souhaitez pas) et des données illimitées (vous ne voudrez peut-être pas cela non plus).


3

Centrer signifie sous-traiter la moyenne de la variable aléatoire à partir des variables. Ie x -xi

Mise à l'échelle signifie diviser une variable par son écart type. C'est-à-dire xi / s

La combinaison des deux s'appelle normalisation ou normalisation. C'est-à-dire x-xi / s


La question est un doublon.
Michael R. Chernick
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.