Je viens de terminer le cours d'apprentissage automatique pour R sur cognitiveclass.ai et j'ai commencé à expérimenter avec randomforests.
J'ai créé un modèle en utilisant la bibliothèque "randomForest" dans R. Le modèle classe par deux classes, bonnes et mauvaises.
Je sais que lorsqu'un modèle est surajusté, il fonctionne bien sur les données de son propre trainingset mais mal sur les données hors échantillon.
Pour former et tester mon modèle, j'ai mélangé et divisé l'ensemble de données complet en 70% pour la formation et 30% pour les tests.
Ma question: j'obtiens une précision de 100% de la prédiction effectuée sur l'ensemble de test. Est-ce mauvais? Cela semble trop beau pour être vrai.
L'objectif est la reconnaissance des formes d'onde sur quatre les unes des autres en fonction des formes d'onde. Les caractéristiques de l'ensemble de données sont les résultats des coûts de l'analyse de distorsion temporelle dynamique des formes d'onde avec leur forme d'onde cible.