Je travaille sur l'apprentissage automatique et la bioinformatique depuis un certain temps, et aujourd'hui j'ai eu une conversation avec un collègue sur les principaux problèmes généraux de l'exploration de données.
Mon collègue (qui est un expert en apprentissage automatique) a déclaré que, selon lui, l'aspect pratique sans doute le plus important de l'apprentissage automatique est de savoir si vous avez collecté suffisamment de données pour former votre modèle d'apprentissage automatique .
Cette déclaration m'a surpris, car je n'avais jamais accordé autant d'importance à cet aspect ...
J'ai ensuite cherché plus d'informations sur Internet, et j'ai trouvé ce post sur FastML.com comme règle générale que vous avez besoin d'environ 10 fois plus d'instances de données que de fonctionnalités .
Deux questions:
1 - Cette problématique est-elle vraiment particulièrement pertinente en apprentissage automatique?
2 - La règle des 10 fois fonctionne-t-elle? Existe-t-il d'autres sources pertinentes pour ce thème?