J'ai un ensemble de données composé de 5 fonctionnalités: A, B, C, D, E. Ce sont toutes des valeurs numériques. Au lieu de faire un clustering basé sur la densité, ce que je veux faire, c'est grouper les données d'une manière d'arbre de décision.
L'approche que je veux dire est quelque chose comme ceci:
L'algorithme peut diviser les données en X grappes initiales en fonction de la caractéristique C, c'est-à-dire que les grappes X peuvent avoir de petites valeurs C, moyennes C, grandes C et très grandes C, etc. Ensuite, sous chacun des nœuds de grappe X, l'algorithme divise davantage les données en grappes Y basées sur la caractéristique A. L'algorithme continue jusqu'à ce que toutes les fonctionnalités soient utilisées.
L'algorithme que j'ai décrit ci-dessus est comme un algorithme d'arbre de décision. Mais j'en ai besoin pour un clustering non supervisé, au lieu d'une classification supervisée.
Mes questions sont les suivantes:
- De tels algorithmes existent-ils déjà? Quel est le nom correct pour un tel algorithme
- Existe-t-il un package / bibliothèque R / python qui a une implémentation de ce type d'algorithmes?
CHAID
arbre, par exemple. Vous devez choisir la variable dépendante. Que ce soit A. L'algorithme sélectionne parmi B, C, D, E la variable la plus corrélée avec A et classe cette variable (disons, elle, le prédicteur, soit D) en deux catégories ou plus "de manière optimale" - de sorte que la corrélation (entre la variable catégorisée D et la variable A est maximisée. Disons, il reste 3 groupes, D1, D2, D3. Ensuite, la même procédure est répétée à l'intérieur de chaque catégorie (groupe) de D séparément, et le meilleur prédicteur parmi B, C , E est recherché sous le binning. Etc. Qu'est- ce qui ne vous convient pas exactement ici?
But I need it for unsupervised clustering, instead of supervised classification
Cette phrase clé seule est trop brève et n'exprime pas clairement ce que vous voulez. Au-dessus, vous avez décrit ce qui me semble être un arbre de décision. Pouvez-vous maintenant donner un passage similaire sur l'algo que vous voulez?