Conditions requises pour le clustering hiérarchique
Le regroupement hiérarchique peut être utilisé avec des mesures arbitraires de similitude et de dissimilarité. (La plupart des outils s'attendent à une dissimilarité, mais permettront des valeurs négatives - c'est à vous de vous assurer que les petites ou les grandes valeurs seront préférées.).
Seules les méthodes basées sur les centroïdes ou la variance (comme la méthode de Ward) sont spéciales et doivent être utilisées avec des Euclidiennes au carré. (Pour comprendre pourquoi, veuillez étudier attentivement ces liens.)
La liaison simple, la liaison moyenne, la liaison complète ne sont pas beaucoup affectées, ce sera toujours le minimum / la moyenne / le maximum des dissemblances par paire.
Corrélation comme mesure de distance
Si vous prétraitez vos données ( n observations, p entités) de telle sorte que chaque entité ait μ=0 et σ=1 (ce qui interdit les entités constantes!), Alors la corrélation se réduit en cosinus:
Corr(X,Y)=Cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=E[XY]=1n⟨X,Y⟩
Dans les mêmes conditions, la distance euclidienne au carré se réduit également en cosinus:
d2Euclid(X,Y)=∑(Xi−Yi)2=∑X2i+∑Y2i−2∑XiYi=2n−2⟨X,Y⟩=2n[1−Corr(X,Y)]
Par conséquent, à moins que vos données ne soient dégénérées, l'utilisation de la corrélation pour le clustering hiérarchique devrait être acceptable. Il suffit de le prétraiter comme expliqué ci-dessus, puis d'utiliser la distance euclidienne au carré.