Donc, je suis un débutant dans le domaine ML et j'essaie de faire un certain classement. Mon objectif est de prédire l'issue d'un événement sportif. J'ai rassemblé quelques données historiques et j'essaie maintenant de former un classificateur. J'ai obtenu environ 1200 échantillons, 0,2 d'entre eux que j'ai séparés à des fins de test, d'autres que j'ai mis dans la recherche de grille (validation croisée incluse) avec différents classificateurs. J'ai essayé SVM avec des noyaux linéaires, rbf et polynomiaux et des forêts aléatoires jusqu'à présent. Malheureusement, je ne peux pas obtenir une précision nettement supérieure à 0,5 (le même que le choix aléatoire de la classe). Cela signifie-t-il que je ne peux tout simplement pas prédire l'issue d'un événement aussi complexe? Ou puis-je obtenir une précision d'au moins 0,7-0,8? Si c'est faisable, que dois-je faire ensuite?
- Obtenez plus de données? (Je peux agrandir l'ensemble de données jusqu'à 5 fois)
- Essayez différents classificateurs? (Régression logistique, kNN, etc.)
- Réévaluer mon ensemble de fonctionnalités? Existe-t-il des outils ML à analyser, quelles fonctionnalités ont du sens et lesquelles ne le sont pas? Peut-être que je devrais réduire mon ensemble de fonctionnalités (j'ai actuellement 12 fonctionnalités)?