Je voudrais coder un cluster kmeans en python à l'aide de pandas et de scikit learn. Afin de sélectionner le bon k, je voudrais coder la statistique de l'écart de Tibshirani et al 2001 ( pdf ).
Je voudrais savoir si je pourrais utiliser le résultat inertie_ de scikit et adapter la formule statistique de l'écart sans avoir à recoder tous les calculs de distances.
Quelqu'un connaît-il la formule d'inertie utilisée dans scikit / connaît-il un moyen facile de recoder la statistique de l'écart à l'aide de fonctions de distance de haut niveau?
python
.