Quelques idées, références et graphiques sur les raisons pour lesquelles la normalisation des entrées peut être utile pour ANN et k-means:
K-signifie :
La classification K-means est "isotrope" dans toutes les directions de l'espace et tend donc à produire des grappes plus ou moins rondes (plutôt qu'allongées). Dans cette situation, laisser les variances inégales revient à accorder plus de poids aux variables moins variées.
Exemple dans Matlab:
X = [randn(100,2)+ones(100,2);...
randn(100,2)-ones(100,2)];
% Introduce denormalization
% X(:, 2) = X(:, 2) * 1000 + 500;
opts = statset('Display','final');
[idx,ctrs] = kmeans(X,2,...
'Distance','city',...
'Replicates',5,...
'Options',opts);
plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)
hold on
plot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)
plot(ctrs(:,1),ctrs(:,2),'kx',...
'MarkerSize',12,'LineWidth',2)
plot(ctrs(:,1),ctrs(:,2),'ko',...
'MarkerSize',12,'LineWidth',2)
legend('Cluster 1','Cluster 2','Centroids',...
'Location','NW')
title('K-means with normalization')
(Pour info: comment puis-je détecter si mon jeu de données est en cluster ou non (c'est-à-dire en formant un seul cluster )
Clustering distribué :
L'analyse comparative montre que les résultats de la mise en cluster distribuée dépendent du type de procédure de normalisation.
Réseau de neurones artificiels (entrées) :
Si les variables d'entrée sont combinées linéairement, comme dans un MLP, il est rarement strictement nécessaire de normaliser les entrées, du moins en théorie. La raison en est que toute remise à l'échelle d'un vecteur d'entrée peut être efficacement annulée en modifiant les pondérations et les biais correspondants, vous offrant ainsi exactement les mêmes résultats que précédemment. Cependant, il existe une variété de raisons pratiques pour lesquelles la standardisation des entrées peut accélérer la formation et réduire les chances de rester bloqué dans l'optimum local. En outre, la décroissance du poids et l'estimation bayésienne peuvent être effectuées plus facilement avec des entrées normalisées.
Réseau de neurones artificiels (entrées / sorties)
Devez-vous faire l'une de ces choses avec vos données? La réponse est, cela dépend.
La standardisation des variables d’entrée ou cibles a tendance à améliorer le comportement du processus de formation en améliorant la condition numérique (voir
ftp://ftp.sas.com/pub/neural/illcond/illcond.html ) du problème d’optimisation les valeurs impliquées dans l'initialisation et la terminaison sont appropriées. La normalisation des cibles peut également affecter la fonction objectif.
La normalisation des cas doit être abordée avec prudence car elle supprime des informations. Si cette information n'est pas pertinente, alors la standardisation des cas peut être très utile. Si cette information est importante, la normalisation des cas peut être désastreuse.
Il est intéressant de noter que la modification des unités de mesure peut même conduire à une structure de cluster très différente: Kaufman, Leonard et Peter J. Rousseeuw. "Recherche de groupes dans les données: introduction à l'analyse par cluster." (2005).
Dans certaines applications, la modification des unités de mesure peut même conduire à une structure de clustering très différente. Par exemple, l'âge (en années) et la taille (en centimètres) de quatre personnes imaginaires sont présentés dans le tableau 3 et représentés dans la figure 3. Il apparaît que {A, B) et {C, 0) sont deux grappes bien séparées. . En revanche, lorsque la hauteur est exprimée en pieds, on obtient le tableau 4 et la figure 4, où les grappes évidentes sont maintenant {A, C} et {B, D}. Cette partition est complètement différente de la première car chaque sujet a reçu un autre compagnon. (La figure 4 aurait été encore plus plate si l'âge avait été mesuré en jours.)
Pour éviter cette dépendance sur le choix des unités de mesure, il est possible de normaliser les données. Ceci convertit les mesures originales en variables sans unité.
Kaufman et al. poursuit avec quelques considérations intéressantes (page 11):
D'un point de vue philosophique, la normalisation ne résout pas vraiment le problème. En effet, le choix des unités de mesure donne lieu à des poids relatifs des variables. Exprimer une variable en unités plus petites donnera une plage plus large pour cette variable, ce qui aura alors un effet important sur la structure résultante. Par contre, en normalisant, on essaie de donner un poids égal à toutes les variables, dans l’espoir de parvenir à l’objectivité. En tant que tel, il peut être utilisé par un praticien qui ne possède aucune connaissance préalable. Cependant, il se peut que certaines variables soient intrinsèquement plus importantes que d’autres dans une application particulière, puis l’attribution de pondérations devrait être fondée sur la connaissance de la matière (voir par exemple Abrahamowicz, 1985). D'autre part, il y a eu des tentatives pour concevoir des techniques de regroupement indépendantes de l'échelle des variables (Friedman et Rubin, 1967). La proposition de Hardy et Rasson (1982) est de rechercher une partition minimisant le volume total des coques convexes des grappes. En principe, une telle méthode est invariante vis-à-vis des transformations linéaires des données, mais malheureusement, aucun algorithme n'existe pour sa mise en œuvre (à l'exception d'une approximation limitée à deux dimensions). Par conséquent, le dilemme de la normalisation semble inévitable à l'heure actuelle et les programmes décrits dans ce livre laissent le choix à l'utilisateur. La proposition de Hardy et Rasson (1982) est de rechercher une partition minimisant le volume total des coques convexes des grappes. En principe, une telle méthode est invariante vis-à-vis des transformations linéaires des données, mais malheureusement, aucun algorithme n'existe pour sa mise en œuvre (à l'exception d'une approximation limitée à deux dimensions). Par conséquent, le dilemme de la normalisation semble inévitable à l'heure actuelle et les programmes décrits dans ce livre laissent le choix à l'utilisateur. La proposition de Hardy et Rasson (1982) est de rechercher une partition minimisant le volume total des coques convexes des grappes. En principe, une telle méthode est invariante vis-à-vis des transformations linéaires des données, mais malheureusement, aucun algorithme n'existe pour sa mise en œuvre (à l'exception d'une approximation limitée à deux dimensions). Par conséquent, le dilemme de la normalisation semble inévitable à l'heure actuelle et les programmes décrits dans ce livre laissent le choix à l'utilisateur.