Je sais que k-means est généralement optimisé à l'aide de la maximisation des attentes . Cependant, nous pourrions optimiser sa fonction de perte de la même manière que nous optimisons les autres!
J'ai trouvé des articles qui utilisent réellement la descente de gradient stochastique pour les moyennes k à grande échelle, mais je n'ai pas pu obtenir de réponse à ma question.
Alors, quelqu'un sait pourquoi? Est-ce parce que la maximisation des attentes converge plus rapidement ? A-t-il une garantie particulière? Ou est-ce une raison historique ?