J'ai un ensemble de données contenant au plus 150 exemples (divisé en formation et test), avec de nombreuses fonctionnalités (supérieures à 1000). J'ai besoin de comparer les classificateurs et les méthodes de sélection des fonctionnalités qui fonctionnent bien sur les données. J'utilise donc trois méthodes de classification (J48, NB, SVM) et 2 méthodes de sélection de fonctionnalités (CFS, WrapperSubset) avec différentes méthodes de recherche (Greedy, BestFirst).
En comparant, je regarde la précision de l'entraînement (pliage croisé 5 fois) et la précision du test.
Voici l'un des résultats de J48 et CFS-BestFirst:
{"precisionTraining": 95,83, "precisionTest": 98,21}
Beaucoup de résultats sont comme ça, et sur le SVM il y a beaucoup de résultats qui indiquent que la précision du test est beaucoup plus élevée que la formation (formation: 60%, test: 98%)
Comment puis-je interpréter de manière significative ce genre de résultats? Si c'était plus bas, je dirais que c'est trop adapté. Y a-t-il quelque chose à dire sur le biais et la variance dans ce cas en regardant tous les résultats? Que puis-je faire pour donner un sens à cette classification, par exemple en resélectionnant les ensembles de formation et de test ou tout simplement en utilisant la validation croisée sur toutes les données?
J'ai 73 formations et 58 instances de test. Certaines réponses ne contenaient pas ces informations lors de leur publication.