Je n'ai pas d'expérience dans l'industrie de l'exploration de données ou des mégadonnées, donc j'aimerais vous entendre partager votre expérience.
Les gens exécutent-ils réellement k-means, PAM, CLARA, etc. sur un très grand ensemble de données? Ou bien ils en choisissent simplement un échantillon au hasard? S'ils ne prennent qu'un échantillon de l'ensemble de données, le résultat serait-il fiable si l'ensemble de données n'est pas normalement distribué?
Dans des situations pratiques lors de l'exécution de ces algorithmes, pouvons-nous dire combien d'itérations cela prendrait normalement jusqu'à ce que la convergence se produise? Ou le nombre d'itérations augmente toujours avec la taille des données?
Je pose cette question car je pense à développer une approche pour terminer les algorithmes itératifs avant la convergence, et pourtant les résultats sont toujours acceptables. Je pense que cela vaut la peine d'essayer si le nombre d'itérations est, disons, supérieur à 1 000, afin que nous puissions économiser du temps et des coûts de calcul. Qu'est-ce que tu penses?
number of iterations always grow with the data size
Pas nécessairement.