Pertinence de l'ANOVA après analyse en grappes k-means

La notification après le tableau ANOVA après l'analyse des moyennes K indique que les niveaux de signification ne doivent pas être considérés comme le test de moyennes égales, car la solution de cluster a été dérivée sur la base de la distance euclidienne pour maximiser la distance. Quel test dois-je utiliser pour montrer si les moyennes des variables de clustering diffèrent entre les clusters? J'ai vu cet avertissement dans la table ANOVA fournie par les sorties k-means, mais dans certaines références, je vois que des tests ANOVA post-hoc sont exécutés. Dois-je ignorer les sorties ANOVA k-mean et exécuter l'ANOVA unidirectionnelle avec des tests post-hoc et les interpréter de manière traditionnelle? Ou puis-je seulement sous-entendre l'ampleur de la valeur F et quelles variables ont le plus contribué à la différence? Une autre confusion est que les variables de regroupement ne sont pas normalement distribuées, ce qui viole l'hypothèse de l'ANOVA, alors je pourrais utiliser le test non paramétrique de Kruskal-Wallis, mais il a des hypothèses sur les mêmes distributions. Les distributions inter-grappes pour les variables spécifiques ne semblent pas les mêmes, certaines sont faussées positivement, d'autres négativement ... J'ai 1275 grand échantillon, 5 grappes, 10 variables de grappe mesurées en scores PCA.

anova k-means

— Inga
source

Pourquoi avez-vous besoin de tester l'égalité des moyens? Ne pouvez-vous pas simplement tester le fonctionnement de votre modèle hors échantillon?

— James

Je voulais déterminer quelles moyennes des variables diffèrent entre les clusters, c'est-à-dire si la moyenne de v1 dans le cluster1 est différente de la moyenne de v1 dans le cluster, 2, 3, 4, 5. Je peux bien sûr voir cela en faisant un graphique, mais cela ne le fait pas pas parler de la différence statistique. Le test de différence statistique m'a rendu confus, car pour l'ANOVA, mes données ne répondaient pas à l'hypothèse de distribution normale, mais pour Kruskal Wallis, testons la même hypothèse de distribution de forme parmi les groupes de grappes.

— Inga

Comme @James l'a souligné dans sa réponse, vous "espionnez". Quelle pourrait être une raison pour tester la signification entre les groupes que vous (votre regroupement) présélectionnez pour différer autant que possible? Il n'y a aucune trace d'échantillonnage aléatoire ou proportionnel à partir de populations distinctes sur la base de certaines caractéristiques externes du fond.

— ttnphns

Merci pour vos réponses! Ma confusion est apparue car dans certaines sources, je vois que les comparaisons statistiques moyennes ne sont pas appropriées dans cette situation comme vous l'avez également souligné, mais par exemple une citation du chapitre d'un livre indique ci-contre: "nous examinons généralement les moyennes de chaque cluster sur chaque dimension en utilisant l'ANOVA pour évaluer à quel point nos grappes sont distinctes. Idéalement, nous obtiendrions des moyennes sensiblement différentes pour la plupart, sinon toutes les dimensions, utilisées dans l'analyse. L'amplitude des valeurs F effectuées sur chaque dimension est une indication de la façon dont la dimension respective fait la distinction entre clusters "

— Inga

Vous avez le droit d'évaluer les différences entre les clusters en fonction des caractéristiques utilisées pour les clusters - afin de trouver les plus discriminantes. Ce faisant, vous pouvez calculer les différences relatives, les F et même les valeurs de p. Comme indicateurs de la taille de l'effet. Pas comme des indicateurs d'importance statistique (qui se réfèrent aux populations).

— ttnphns

Réponses:

Non!

Vous devez ne pas utiliser les mêmes données pour 1) effectuer un clustering et 2) rechercher des différences significatives entre les points des clusters. Même s'il n'y a pas de structure réelle dans les données, le clustering en imposera une en regroupant les points proches. Cela réduit la variance intra-groupe et augmente la variance inter-groupe, ce qui vous oriente vers les faux positifs.

$k$ -means est utilisé pour regrouper les données en 5 groupes, nous trouvons un effet significatif pratiquement à chaque fois, même si les données n'ont pas de structure réelle .

Résultats de simulation montrant une distribution uniforme des valeurs de p pour les affectations aléatoires et une distribution très asymétrique (presque toutes 0,05 ou moins) des valeurs de p après le regroupement

Il n'y a rien de spécial à propos d'une ANOVA ici - vous verriez des effets similaires en utilisant des tests non paramétriques, une régression logistique, n'importe quoi. En général, la validation des performances d'un algorithme de clustering est délicate, en particulier si les données ne sont pas étiquetées. Cependant, il existe quelques approches de la «validation interne» ou de la mesure de la qualité des clusters sans utiliser de sources de données externes. Ils se concentrent généralement sur la compacité et la séparabilité des grappes. Cette revue de Lui et al. (2010) pourrait être un bon point de départ.

— Matt Krause
source

Votre vrai problème est l'espionnage des données. Vous ne pouvez pas appliquer ANOVA ou KW si les observations ont été affectées à des groupes (grappes) en fonction du jeu de données d'entrée lui-même. Ce que vous pouvez faire est d'utiliser quelque chose comme la statistique Gap pour estimer le nombre de clusters.

D'un autre côté, les valeurs de p espionnées sont biaisées vers le bas, donc si le résultat du test ANOVA ou KW est insignifiant, alors la "vraie" valeur de p est encore plus grande et vous pouvez décider de fusionner les clusters.

— James
source

Je pense que vous pourriez appliquer une telle approche (c'est-à-dire en utilisant les statistiques, telles que les statistiques F ou les statistiques t ou autre), si vous jetez les distributions nulles habituelles .

Ce que vous devez faire est de simuler la situation dans laquelle votre valeur nulle est vraie, d'appliquer l'ensemble de la procédure (clustering, etc.), puis de calculer la statistique à chaque fois. Appliqué sur de nombreuses simulations, vous obtiendriez une distribution de la statistique sous la valeur nulle à laquelle votre valeur d'échantillon pourrait être comparée. En incorporant l'espionnage des données dans le calcul, vous tenez compte de son effet.

[Alternativement, on pourrait peut-être développer un test basé sur le rééchantillonnage (qu'il soit basé sur la permutation / randomisation ou l'amorçage).]

— Glen_b -Reinstate Monica
source

Bon, c'est l'idée derrière la statistique Gap.

— James