Je suis un nouveau venu dans l'apprentissage automatique (également des statistiques), j'apprends des connaissances (algorithmes d'apprentissage supervisés / non supervisés, méthodes d'optimisation pertinentes, régularisations, certaines philosophies (comme le compromis biais-variance?)) Depuis un certain temps. Je sais que sans aucune pratique réelle, je ne gagnerais pas une compréhension approfondie de ces trucs d'apprentissage automatique.
Je commence donc par un problème de classification avec des données réelles, par exemple la classification des chiffres manuscrits (MNIST). À ma grande surprise, sans apprentissage / ingénierie des fonctionnalités , la précision atteint 0,97 en utilisant un classificateur de forêt aléatoire avec des valeurs de pixels brutes en entrée. J'ai également essayé d'autres algorithmes d'apprentissage, tels que SVM, LR avec des paramètres ajustés.
Alors je me suis perdu, serait-ce trop facile ou est-ce que je manque quelque chose ici? Il suffit de prendre un algorithme d'apprentissage dans la boîte à outils et de régler certains paramètres?
Si cela ne concernait que l'apprentissage automatique dans la pratique, je perdrais tout intérêt pour ce domaine. J'ai pensé et lu quelques blogs pendant quelques jours, et je suis arrivé à quelques conclusions:
La partie la plus importante de l'apprentissage automatique dans la pratique est l' ingénierie des fonctionnalités , c'est-à-dire, compte tenu des données, trouver une meilleure représentation des fonctionnalités.
Quel algorithme d'apprentissage à utiliser est également important, également le réglage des paramètres, mais le choix final est plus sur l'expérimentation.
Je ne suis pas sûr de bien le comprendre, en espérant que n'importe qui puisse me corriger et me donner quelques suggestions sur l'apprentissage automatique dans la pratique.