Je veux regrouper ~ 22 000 points. De nombreux algorithmes de clustering fonctionnent mieux avec des suppositions initiales de meilleure qualité. Quels outils existent qui peuvent me donner une bonne idée de la forme approximative des données?
Je veux pouvoir choisir ma propre métrique de distance, donc un programme que je peux alimenter une liste de distances par paire serait très bien. J'aimerais pouvoir faire quelque chose comme mettre en évidence une région ou un cluster sur l'écran et obtenir une liste des points de données dans cette zone.
Logiciel libre préféré, mais j'ai déjà SAS et MATLAB.