J'ai trouvé cette implémentation Python de l' algorithme Jenks Natural Breaks et je pouvais la faire fonctionner sur ma machine Windows 7. Il est assez rapide et trouve les ruptures en peu de temps, compte tenu de la taille de mes géodonnées. Avant d'utiliser cet algorithme de clustering pour mes données, j'utilisais sklearn.clustering.KMeans
(ici) l' algorithme. Le problème que j'ai eu avec KMeans était de trouver le paramètre de valeur K optimal, mais je l'ai "résolu" en lançant l'algorithme pour différentes valeurs K et en utilisant sklearn.metrics.silhouette_score
(ici) pour trouver le meilleur K.
Ma question est: si je dis à l'algorithme Natural Breaks de trouver 5 classes (ce serait le K), comment puis-je être sûr que c'est le nombre de classes qui correspondent le mieux à mes données? Comment valider que je choisis le meilleur nombre de pauses?
Merci!