Je ne comprends pas pourquoi la réduction de dimension est importante. Quel est l'avantage de prendre certaines données et de réduire leur dimension?
Je ne comprends pas pourquoi la réduction de dimension est importante. Quel est l'avantage de prendre certaines données et de réduire leur dimension?
Réponses:
La décomposition en valeurs singulières (SVD) ne revient pas à réduire la dimensionnalité des données. C'est une méthode de décomposition d'une matrice en d'autres matrices qui a beaucoup de propriétés merveilleuses dans lesquelles je n'entrerai pas ici. Pour en savoir plus sur SVD, consultez la page Wikipedia .
Réduire la dimensionnalité de vos données est parfois très utile. Il se peut que vous ayez beaucoup plus de variables que d'observations; ce n'est pas rare dans le travail génomique. Il se peut que nous ayons plusieurs variables qui sont très fortement corrélées, par exemple, lorsqu'elles sont fortement influencées par un petit nombre de facteurs sous-jacents, et nous souhaitons retrouver une approximation des facteurs sous-jacents. Les techniques de réduction de dimensionnalité telles que l'analyse des composants principaux, la mise à l'échelle multidimensionnelle et l'analyse canonique des variables nous donnent un aperçu des relations entre les observations et / ou les variables que nous ne pourrions peut-être pas obtenir autrement.
Un exemple concret: il y a quelques années, j'analysais une enquête de satisfaction des employés qui contenait plus de 100 questions. Eh bien, aucun gestionnaire ne pourra jamais regarder plus de 100 questions valant des réponses, même résumées, et faire plus que deviner ce que cela signifie, car qui peut dire comment les réponses sont liées et ce qui les motive, vraiment ? J'ai effectué une analyse factorielle des données, pour laquelle j'avais plus de 10 000 observations, et j'ai trouvé cinq facteurs très clairs et facilement interprétables qui pourraient être utilisés pour développer des scores spécifiques au manager (un pour chaque facteur) qui résumeraient l'intégralité des l'enquête de plus de 100 questions. Une bien meilleure solution que le vidage de feuille de calcul Excel qui avait été la méthode antérieure de rapport des résultats!
En ce qui concerne votre deuxième point de la question, les avantages de la réduction de la dimensionnalité pour un ensemble de données peuvent être:
En dehors de cela, au-delà de PCA, SVD a de nombreuses applications dans le traitement des signaux, la PNL et bien d'autres
Jetez un oeil à ma réponse . La décomposition en valeurs singulières est un élément clé de l' analyse des composants principaux , qui est une technique d'analyse de données très utile et très puissante.
Il est souvent utilisé dans les algorithmes de reconnaissance faciale, et je l'utilise fréquemment dans mon travail de jour en tant qu'analyste de hedge funds.