Pour obtenir un regroupement idéal, vous devez sélectionner à maximiser la statistique d'écart. Voici l'exemple donné par Tibshirani et al. (2001) dans leur article, l'intrigue formée de données artificielles à 2 grappes. Comme vous pouvez le voir, 2 est clairement le idéal , car la statistique de l'écart est maximisée à :kkk = 2
Cependant, dans de nombreux ensembles de données du monde réel, les grappes ne sont pas aussi bien définies, et nous voulons être en mesure d'équilibrer la maximisation de la statistique de l'écart avec la parcimonie du modèle. Exemple: la première image d'OP. Si nous maximisons uniquement la statistique de l'écart , nous devons alors choisir le modèle avec 30 (ou même plus!) Grappes. En supposant que ce graphique va continuer à augmenter, bien sûr, les résultats sont moins utiles. Tibshirani suggère donc la méthode de l' erreur standard 1 :
Choisissez la taille de cluster comme étant le plus petit tel que .k^kÉcart ( k ) ≥ Écart ( k + 1 ) - sk + 1
Ce qui identifie de manière informelle le point auquel le taux d'augmentation de la statistique de l'écart commence à "ralentir".
Donc, dans la première image de OP, si nous prenons les barres d'erreur rouges comme erreur standard, alors 3 est le plus petit qui satisfait ce critère:k
Cependant, pour la deuxième image d'OP, vous verrez que la statistique de l'écart diminue immédiatement pour . Ainsi, le premier qui satisfait au critère d'erreur standard est . C'est la manière du graphique de dire que les données ne doivent pas être regroupées.k > 1k1
En fait, il existe d'autres façons de choisir un optimal . La méthode par défaut de la fonction R , par exemple, recherche toujours le maximum local du graphique et sélectionne le plus petit dans une erreur standard du maximum local. En utilisant cette méthode, nous sélectionnerions et pour les graphiques OP 1 et 2 respectivement. Comme je l'ai dit, cependant, cela semble souffrir d'un problème de complexité.kclusGap
kfirstSEmax
k = 30k = 19
Source: Robert Tibshirani, Guenther Walther et Trevor Hastie (2001). Estimation du nombre de grappes dans un ensemble de données via la statistique de l'écart.