Comment dois-je interpréter les statistiques GAP?

J'ai utilisé la statistique GAP pour estimer k grappes dans R. Cependant, je ne suis pas sûr de bien l'interpréter. entrez la description de l'image ici

D'après l'intrigue ci-dessus, je suppose que je devrais utiliser 3 clusters.

entrez la description de l'image ici

Dans la deuxième parcelle, je devrais choisir 6 grappes. Est-ce une interprétation correcte des statistiques GAP?

Je serais reconnaissant pour toute explication.

clustering

— peterpeter
source

Deux questions - Quelle est la première intrigue montrant? Est-ce une statistique GAP pour les mêmes données? Pourquoi serait-il différent du second (que je vois est un GAP). Quelles fonctions R avez-vous utilisées? Deuxième question: avez-vous utilisé la règle «1-standard error» pour choisir 6 pour le deuxième tracé?

— Deathkill14

Il existe donc deux approches différentes du clustering. Premier basé sur des séries chronologiques - ventes pendant 26 semaines et j'ai regroupé des données basées sur la déformation temporelle dynamique. La deuxième approche consistait à regrouper les paramètres de la courbe de croissance, également en fonction de la déformation temporelle dynamique. J'ai utilisé clusGapbasé sur globalmax, je ne savais pas comment implémenter maxSE.

— peterpeter

Pour obtenir un regroupement idéal, vous devez sélectionner à maximiser la statistique d'écart. Voici l'exemple donné par Tibshirani et al. (2001) dans leur article, l'intrigue formée de données artificielles à 2 grappes. Comme vous pouvez le voir, 2 est clairement le idéal , car la statistique de l'écart est maximisée à : $k$ $k$ $k=2$

Cependant, dans de nombreux ensembles de données du monde réel, les grappes ne sont pas aussi bien définies, et nous voulons être en mesure d'équilibrer la maximisation de la statistique de l'écart avec la parcimonie du modèle. Exemple: la première image d'OP. Si nous maximisons uniquement la statistique de l'écart , nous devons alors choisir le modèle avec 30 (ou même plus!) Grappes. En supposant que ce graphique va continuer à augmenter, bien sûr, les résultats sont moins utiles. Tibshirani suggère donc la méthode de l' erreur standard 1 :

Choisissez la taille de cluster comme étant le plus petit tel que . $\hat{k}$ $k$ $\text{Gap}(k) \geq \text{Gap}(k + 1) - s_{k + 1}$

Ce qui identifie de manière informelle le point auquel le taux d'augmentation de la statistique de l'écart commence à "ralentir".

Donc, dans la première image de OP, si nous prenons les barres d'erreur rouges comme erreur standard, alors 3 est le plus petit qui satisfait ce critère: $k$

Cependant, pour la deuxième image d'OP, vous verrez que la statistique de l'écart diminue immédiatement pour . Ainsi, le premier qui satisfait au critère d'erreur standard est . C'est la manière du graphique de dire que les données ne doivent pas être regroupées. $k > 1$ $k$ $1$

En fait, il existe d'autres façons de choisir un optimal . La méthode par défaut de la fonction R , par exemple, recherche toujours le maximum local du graphique et sélectionne le plus petit dans une erreur standard du maximum local. En utilisant cette méthode, nous sélectionnerions et pour les graphiques OP 1 et 2 respectivement. Comme je l'ai dit, cependant, cela semble souffrir d'un problème de complexité. $k$ clusGap $k$ firstSEmax $k = 30$ $k = 19$

Source: Robert Tibshirani, Guenther Walther et Trevor Hastie (2001). Estimation du nombre de grappes dans un ensemble de données via la statistique de l'écart.

— jayelm
source

Lors de l'estimation de la valeur partir des statistiques de l'écart, comment puis-je calculer / estimer la probabilité que soit le nombre réel de grappes? Ou ma question est-elle vide de sens?

k

$k$

k

$k$

— quant_dev

Merci d'avoir souligné le compromis entre maximiser la statistique de l'écart et obtenir la parcimonie du modèle

— cloudscomputes