Si j'ai un certain ensemble de données, comment serait-il intelligent d'initialiser des centres de cluster à l'aide d'échantillons aléatoires de cet ensemble de données?
Par exemple, supposons que je veuille 5 clusters
. Je prends la 5 random samples
parole size=20%
de l'ensemble de données d'origine. Puis-je alors prendre la moyenne de chacun de ces 5 échantillons aléatoires et utiliser ces moyennes comme mes 5 centres de cluster initial? Je ne sais pas où j'ai lu ceci mais je voulais savoir ce que vous en pensez.
MISE À JOUR: Veuillez consulter ce fil Initialisation du clustering K-means: quelles sont les méthodes existantes? pour la discussion générale sur les différentes méthodes d'initialisation.