Utilisation d'un test de signification statistique pour valider les résultats de l'analyse de grappes

13

J'étudie l'utilisation des tests de signification statistique (SST) pour valider les résultats de l'analyse en grappes. J'ai trouvé plusieurs articles sur ce sujet, tels que

« Signification statistique du regroupement pour les données de grande taille et de faible taille d'échantillon » par Liu, Yufeng et al. (2008)
" Sur certains tests de signification dans l'analyse en grappes ", par Bock (1985)

Mais je suis intéressé à trouver de la littérature faisant valoir que le SST n'est PAS approprié pour valider les résultats de l'analyse de cluster. La seule source que j'ai trouvée affirmant qu'il s'agit d'une page Web d'un fournisseur de logiciels

Clarifier:

Je suis intéressé à tester si une structure de cluster significative a été trouvée à la suite de l'analyse de cluster, donc, j'aimerais avoir des articles qui soutiennent ou réfutent la préoccupation "sur la possibilité de tests post-hoc des résultats des données exploratoires analyse utilisée pour trouver des clusters ".

Je viens de trouver un article de 2003, " Clustering and classification methods " de Milligan et Hirtle, disant, par exemple, que l'utilisation de l'ANOVA serait une analyse invalide car les données n'ont pas d'assignations aléatoires aux groupes.

hypothesis-testing clustering statistical-significance

— DPS
source

C'est une bonne question, mais il peut être utile de souligner qu'elle est formulée d'une manière qui donne l'impression qu'il y a une dichotomie: soit vous pouvez tester l'importance du clustering, soit vous ne pouvez pas. La situation est différente, cependant, parce que "l'analyse de cluster" signifie différentes choses. Dans les articles référencés, l'accent est mis sur la vérification de l'existence de preuves de regroupement. Dans le manuel du logiciel, une inquiétude est exprimée à juste titre quant à la possibilité de tests post-hoc des résultats de l'analyse exploratoire des données utilisée pour trouver des grappes. Il n'y a pas de contradiction ici.

— whuber

Merci de répondre. Vous avez raison sur la façon dont j'ai posé la question. Je suis intéressé à tester si une structure de cluster significative a été trouvée à la suite de l'analyse de cluster, donc, j'aimerais avoir des articles qui soutiennent ou réfutent la préoccupation "sur la possibilité de tests post-hoc des résultats des données exploratoires analyse utilisée pour trouver des clusters ". Je viens de trouver un article de 2003 "Clustering and classification methods" de Milligan et Hirtle disant, par exemple, que l'utilisation de l'ANOVA serait une analyse invalide car les données n'ont pas d'assignations aléatoires aux groupes.

— DPS

Pourrait aider: aveuglé par la science: les conséquences managériales de solutions d'analyse de grappes mal validées, mrs.org.uk/ijmr_article/article/78841

— rolando2

3

Il est assez évident que vous ne pouvez pas (naïvement) tester la différence de distribution pour les groupes qui ont été définis en utilisant les mêmes données. Ceci est connu sous le nom de "test sélectif", "double trempage", "inférence circulaire", etc.

Un exemple serait d'effectuer un test t sur les hauteurs des personnes "grandes" et "courtes" dans vos données. Le null sera (presque) toujours rejeté.

Cela dit, on peut en effet expliquer l'étape de regroupement au stade des tests. Je ne connais cependant pas une référence particulière à cet effet, mais je pense que cela aurait dû être fait.

— JohnRos
source

Je suis d'accord sur le fait que le null sera presque toujours rejeté lors de l'application d'un test de signification sur les différents groupes de grappes. Bien que - cela ne devrait être le cas que si le clustering a réussi à bien séparer les groupes pour toutes les variables considérées dans l'AC? Ne pourrait-on pas utiliser un test de signification pour déterminer s'il y a des variables qui ne sont pas bien séparées entre les groupes (ce qui signifie appliquer un test pour chaque variable)? Pourriez-vous expliquer la raison statistique pour laquelle cela n'est pas recommandé / sensé?

— luke

L'argument formel est que le terme d'erreur de chaque mesure n'est pas centré sur zéro. Pensez à mon exemple grand / court: toutes les personnes sont issues de la même distribution, mais le groupe "grand" a des erreurs avec une moyenne positive et une moyenne négative "courte".

— JohnRos

0

Au lieu de tester des hypothèses avec un test donné, je recommanderais des moyens d'amorçage ou d'autres estimations sommaires entre les grappes. Par exemple, vous pouvez vous fier au bootstrap centile avec au moins 1 000 échantillons. Le point clé est d'appliquer le clustering indépendamment à chaque échantillon d'amorçage.

Cette approche serait assez robuste, fournirait des preuves des différences et soutiendrait votre affirmation de différence significative entre les clusters. De plus, vous pourriez générer une autre variable (disons la différence entre les grappes) et les estimations bootstrap de cette variable de différence seraient similaires à un test formel d'hypothèse.

— Joe_74
source