Hypothèses de l'analyse en grappes


16

Toutes mes excuses pour la question rudimentaire, je suis nouveau dans cette forme d'analyse et j'ai une compréhension très limitée des principes jusqu'à présent.

Je me demandais simplement si bon nombre des hypothèses paramétriques pour les tests multivariés / univariés s'appliquent à l'analyse de cluster? De nombreuses sources d'informations que j'ai lues concernant l'analyse de cluster ne spécifient aucune hypothèse.

Je suis particulièrement intéressé par l'hypothèse d'indépendance des observations. Ma compréhension est que la violation de cette hypothèse (dans ANOVA et MAVOVA par exemple) est grave car elle influence les estimations d'erreur. D'après mes lectures jusqu'à présent, il semble que l'analyse en grappes soit largement une technique descriptive (qui n'implique une inférence statistique que dans certains cas spécifiés). En conséquence, des hypothèses telles que l'indépendance et des données normalement distribuées sont-elles nécessaires?

Toute recommandation de textes traitant de cette question serait grandement appréciée. Merci beaucoup.

Réponses:


7

Eh bien, les techniques de regroupement ne se limitent pas aux méthodes basées sur la distance où nous recherchons des groupes d'unités statistiques qui sont inhabituellement proches les uns des autres, au sens géométrique. Il existe également une gamme de techniques reposant sur la densité (les grappes sont considérées comme des "régions" dans l'espace des caractéristiques) ou la distribution des probabilités .

Ce dernier cas est également connu sous le nom de regroupement basé sur un modèle ; les psychométriciens utilisent le terme analyse de profil latent pour désigner ce cas spécifique du modèle de mélange fini , où nous supposons que la population est composée de différents groupes non observés, ou classes latentes, et que la densité conjointe de toutes les variables manifestes est un mélange de cette classe. densité spécifique. Bonne mise en œuvre sont disponibles dans le Mclust package ou Mplus logiciel. Différentes matrices de covariance invariantes de classe peuvent être utilisées (en fait, Mclust utilise le critère BIC pour sélectionner l'optimum tout en faisant varier le nombre de clusters).

Le modèle de classe latente standard fait également l'hypothèse que les données observées proviennent d'un mélange de g distributions multinomiales multivariées. Une bonne vue d'ensemble est disponible dans Model-based cluster analysis: a Defense , par Gilles Celeux.

Dans la mesure où ces méthodes reposent sur des hypothèses de distribution, cela permet également d'utiliser des tests formels ou des indices de qualité d'ajustement pour décider du nombre de grappes ou de classes, ce qui reste un problème difficile dans l'analyse des grappes basée sur la distance, mais voir les articles suivants qui a discuté de cette question:

  1. Handl, J., Knowles, J. et Kell, DB (2005). Validation informatique des clusters dans l'analyse des données post-génomiques. Bioinformatics , 21 (15) , 3201-3212.
  2. Hennig, C. (2007) Évaluation par grappes de la stabilité des grappes. Statistiques computationnelles et analyse des données , 52 , 258-271.
  3. Hennig, C. (2008) Point de dissolution et robustesse d'isolement: critères de robustesse pour les méthodes générales d'analyse en grappes. Journal of Multivariate Analysis , 99 , 1154-1176.

3

Il existe une très grande variété de méthodes de clustering, qui sont de nature exploratoire, et je ne pense pas que l'une d'entre elles, qu'elle soit hiérarchique ou basée sur une partition, s'appuie sur le type d'hypothèses à respecter pour analyser la variance.

Après avoir regardé la documentation [MV] dans Stata pour répondre à votre question, j'ai trouvé cette citation amusante à la page 85:

Bien que certains aient dit qu'il existe autant de méthodes d'analyse de clusters que de personnes effectuant une analyse de clusters. C'est un euphémisme grossier! Il existe infiniment plus de façons d'effectuer une analyse de cluster que les personnes qui les effectuent.

Dans ce contexte, je doute qu'il existe des hypothèses applicables à travers la méthode de clustering. Le reste du texte établit simplement comme règle générale que vous avez besoin d'une certaine forme de "mesure de dissimilarité", qui n'a même pas besoin d'être une distance métrique, pour créer des grappes.

Il existe cependant une exception, lorsque vous regroupez des observations dans le cadre d'une analyse post-estimation. Dans Stata, la vcecommande est accompagnée de l'avertissement suivant, à la page 86 de la même source:

Si vous connaissez le large éventail de commandes d'estimation de Stata, veillez à faire la distinction entre l'analyse de cluster (la commande de cluster) et l'option vce (cluster clustvar) autorisée avec de nombreuses commandes d'estimation. L'analyse de cluster trouve des groupes dans les données. L'option vce (cluster clustvar) autorisée avec diverses commandes d'estimation indique que les observations sont indépendantes dans les groupes définis par l'option mais ne sont pas nécessairement indépendantes au sein de ces groupes. Une variable de regroupement produite par la commande cluster satisfera rarement l'hypothèse derrière l'utilisation de l'option vce (cluster clustvar).

Sur cette base, je suppose que des observations indépendantes ne sont pas requises en dehors de ce cas particulier. Intuitivement, j'ajouterais que l'analyse par grappes pourrait même être utilisée dans le but précis d'explorer dans quelle mesure les observations sont indépendantes ou non.

Je terminerai en mentionnant qu'à la page 356 de Statistics with Stata , Lawrence Hamilton mentionne les variables standardisées comme un aspect «essentiel» de l'analyse des grappes, bien qu'il n'aille pas plus en profondeur sur la question.


2

L'analyse des grappes spatiales utilise des observations géoréférencées et est un sous-ensemble de l'analyse des grappes qui ne se limite pas à l'analyse exploratoire.

Exemple 1

Il peut être utilisé pour créer des circonscriptions électorales équitables.

Exemple 2

Les mesures locales d'autocorrélation spatiale sont utilisées dans la méthode de clustering AMOEBA . Aldstadt et Getis utilisent les grappes résultantes pour créer une matrice de pondérations spatiales qui peut être spécifiée dans des régressions spatiales pour tester une hypothèse.

Voir Aldstadt, Jared et Arthur Getis (2006) «Utilisation d'AMOEBA pour créer une matrice de pondérations spatiales et identifier les grappes spatiales». Analyse géographique 38 (4) 327-343

Exemple 3

Une analyse en grappes basée sur des régions à croissance aléatoire, compte tenu d'un ensemble de critères, pourrait être utilisée comme méthode probabiliste pour indiquer l'injustice dans la conception des zones institutionnelles telles que les zones de fréquentation scolaire ou les circonscriptions électorales.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.