La notification après le tableau ANOVA après l'analyse des moyennes K indique que les niveaux de signification ne doivent pas être considérés comme le test de moyennes égales, car la solution de cluster a été dérivée sur la base de la distance euclidienne pour maximiser la distance. Quel test dois-je utiliser pour montrer si les moyennes des variables de clustering diffèrent entre les clusters? J'ai vu cet avertissement dans la table ANOVA fournie par les sorties k-means, mais dans certaines références, je vois que des tests ANOVA post-hoc sont exécutés. Dois-je ignorer les sorties ANOVA k-mean et exécuter l'ANOVA unidirectionnelle avec des tests post-hoc et les interpréter de manière traditionnelle? Ou puis-je seulement sous-entendre l'ampleur de la valeur F et quelles variables ont le plus contribué à la différence? Une autre confusion est que les variables de regroupement ne sont pas normalement distribuées, ce qui viole l'hypothèse de l'ANOVA, alors je pourrais utiliser le test non paramétrique de Kruskal-Wallis, mais il a des hypothèses sur les mêmes distributions. Les distributions inter-grappes pour les variables spécifiques ne semblent pas les mêmes, certaines sont faussées positivement, d'autres négativement ... J'ai 1275 grand échantillon, 5 grappes, 10 variables de grappe mesurées en scores PCA.