Je voudrais savoir quelle est la meilleure façon de classer un ensemble de données composé de types mixtes d'attributs, par exemple textuels et numériques. Je sais que je peux convertir du textuel en booléen, mais le vocabulaire est divers et les données deviennent trop rares. J'ai également essayé de classer les types d'attributs séparément et de combiner les résultats grâce à des techniques de méta-apprentissage, mais cela n'a pas bien fonctionné.
Principal Component Analysis
ouNon-Negative Matrix Factorization
réduira le nombre de variables, enrichira les données éparses et transformera toutes les variables en données quantitatives. De plus, en évaluant la qualité du modèle de réduction de la dimensionnalité, l'auteur de la question peut estimer l'utilité des variables textuelles.