J'ai un ensemble de données d'un sac de mots. Je choisis au hasard certains points et les utilise pour les tests et les autres sont utilisés pour la formation.
- cas (1) Je prends simplement chaque point de données de l'ensemble de test et le classe comme ayant la même étiquette de classe que son point le plus proche de l'ensemble de trains.
- cas (2) Je fais la classification en utilisant n'importe quel classificateur supervisé connu.
J'ai toujours un meilleur taux de reconnaissance dans le cas (1). Autrement dit, ne pas faire d'apprentissage du tout, c'est mieux que d'utiliser n'importe quel apprentissage supervisé, pour cet ensemble de données (et d'autres)! Est-ce une situation fréquente?