Je pense qu'une hypothèse de base de l'apprentissage automatique ou de l'estimation des paramètres est que les données invisibles proviennent de la même distribution que l'ensemble d'apprentissage. Cependant, dans certains cas pratiques, la distribution de l'ensemble de test sera presque différente de l'ensemble de formation.
Disons pour un problème de classification multiple à grande échelle qui essaie de classer les descriptions de produits en environ 17 000 classes. L'ensemble de formation aura des classes a priori très asymétriques, de sorte que certaines classes peuvent avoir de nombreux exemples de formation, mais certaines peuvent n'en avoir que quelques-unes. Supposons que l'on nous donne un ensemble de tests avec des étiquettes de classe inconnues d'un client. Nous essayons de classer chaque produit de l'ensemble de test dans l'une des 17 000 classes, en utilisant le classificateur formé sur l'ensemble de formation. L'ensemble de tests aurait probablement des distributions de classe asymétriques mais probablement très différentes de celles de l'ensemble de formation, car elles pourraient être liées à différents domaines d'activité. Si les deux distributions de classe sont très différentes, le classificateur formé peut ne pas fonctionner correctement dans l'ensemble de test. Cela semble particulièrement évident avec le classificateur Naive Bayes.
Existe-t-il un moyen de principe de gérer la différence entre l'ensemble de formation et un ensemble de test donné pour les classificateurs probabilistes? J'ai entendu dire que "SVM transductif" fait la même chose dans SVM. Existe-t-il des techniques similaires pour apprendre un classificateur qui fonctionne le mieux sur un ensemble de tests donné? Ensuite, nous pouvons recycler le classificateur pour différents ensembles de tests donnés, comme cela est autorisé dans ce scénario pratique.