Je comprends ce qu'est la «malédiction de la dimensionnalité», et j'ai fait quelques problèmes d'optimisation dimensionnelle élevée et je connais le défi des possibilités exponentielles.
Cependant, je doute que la "malédiction de la dimensionnalité" existe dans la plupart des données du monde réel (eh bien, mettons les images ou les vidéos de côté pendant un moment, je pense à des données telles que les données démographiques des clients et les comportements d'achat).
Nous pouvons collecter des données avec des milliers de fonctionnalités, mais il est moins probable, voire impossible, que les fonctionnalités puissent couvrir entièrement un espace avec des milliers de dimensions. C'est pourquoi les techniques de réduction de dimension sont si populaires.
En d'autres termes, il est très probable que les données ne contiennent pas le niveau exponentiel d'informations, c'est-à-dire que de nombreuses fonctionnalités sont fortement corrélées et que de nombreuses fonctionnalités satisfont aux règles 80-20 (de nombreuses instances ont la même valeur).
Dans un tel cas, je pense que des méthodes comme KNN fonctionneront encore assez bien. (Dans la plupart des livres, "la malédiction de la dimensionnalité" dit que la dimension> 10 pourrait être problématique. Dans leurs démos, ils utilisent une distribution uniforme dans toutes les dimensions, où l'entropie est vraiment élevée. Je doute que dans le monde réel, cela se produira jamais.)
Mon expérience personnelle avec des données réelles est que la «malédiction de la dimensionnalité» n'affecte pas trop la méthode du modèle (comme KNN) et dans la plupart des cas, les dimensions ~ 100 fonctionneraient toujours.
Est-ce vrai pour les autres? (J'ai travaillé avec des données réelles dans différentes industries pendant 5 ans, jamais observé "toutes les paires de distances ont des valeurs similaires" comme décrit dans le livre.)