J'ai une base de données de mon application Facebook et j'essaie d'utiliser l'apprentissage automatique pour estimer l'âge des utilisateurs en fonction des sites Facebook qu'ils aiment.
Il y a trois caractéristiques cruciales de ma base de données:
la répartition par âge dans mon ensemble de formation (12k d'utilisateurs en somme) est biaisée vers les utilisateurs plus jeunes (c'est-à-dire que j'ai 1157 utilisateurs âgés de 27 ans et 23 utilisateurs âgés de 65 ans);
de nombreux sites n'ont pas plus de 5 likers (j'ai filtré les sites FB avec moins de 5 likers).
il y a beaucoup plus de fonctionnalités que d'échantillons.
Alors, mes questions sont: quelle stratégie proposeriez-vous pour préparer les données pour une analyse plus approfondie? Dois-je effectuer une sorte de réduction de la dimensionnalité? Quelle méthode ML serait la plus appropriée à utiliser dans ce cas?
J'utilise principalement Python, donc des conseils spécifiques à Python seraient grandement appréciés.