J'utilise le clustering hiérarchique pour analyser les données de séries chronologiques. Mon code est implémenté à l'aide de la fonction MathematicaDirectAgglomerate[...]
, qui génère des clusters hiérarchiques compte tenu des entrées suivantes:
une matrice de distance D
le nom de la méthode utilisée pour déterminer la liaison inter-cluster.
J'ai calculé la matrice de distance D en utilisant la distance de Manhattan:
où et est le nombre de points de données dans ma série chronologique.n ≈ 150
Ma question est, est-il correct d'utiliser la liaison inter-cluster de Ward avec une matrice de distance de Manhattan? Certaines sources suggèrent que le couplage de Ward ne devrait être utilisé qu'avec la distance euclidienne.
Notez que DirectAgglomerate[...]
calcule le lien de Ward en utilisant la matrice de distance uniquement, et non les observations originales. Malheureusement, je ne sais pas comment Mathematica modifie l'algorithme original de Ward, qui (d'après ma compréhension) a fonctionné en minimisant la somme d'erreur des carrés des observations, calculée par rapport à la moyenne du cluster. Par exemple, pour un cluster constitué d'un vecteur d'observations univariées, Ward a formulé la somme d'erreur des carrés comme suit:
(D'autres outils logiciels tels que Matlab et R implémentent également le clustering de Ward en utilisant uniquement une matrice de distance, de sorte que la question n'est pas spécifique à Mathematica.)