Supposons que je veuille apprendre un classificateur qui prend un vecteur de nombres en entrée et donne une étiquette de classe en sortie. Mes données d'entraînement se composent d'un grand nombre de paires d'entrée-sortie.
Cependant, lorsque je viens de tester certaines nouvelles données, ces données ne sont généralement que partiellement complètes. Par exemple, si le vecteur d'entrée est de longueur 100, seuls 30 des éléments peuvent recevoir des valeurs et les autres sont "inconnus".
À titre d'exemple, considérons la reconnaissance d'image lorsque l'on sait qu'une partie de l'image est occluse. Ou considérez la classification dans un sens général où l'on sait qu'une partie des données est corrompue. Dans tous les cas, je sais exactement quels éléments du vecteur de données sont les parties inconnues.
Je me demande comment je peux apprendre un classificateur qui fonctionnerait pour ce type de données? Je pourrais simplement définir les éléments "inconnus" sur un nombre aléatoire, mais étant donné qu'il y a souvent plus d'éléments inconnus que ceux connus, cela ne semble pas être une bonne solution. Ou, je pourrais changer aléatoirement des éléments dans les données de formation en "inconnu", et m'entraîner avec ceux-ci plutôt que les données complètes, mais cela pourrait nécessiter un échantillonnage exhaustif de toutes les combinaisons d'éléments connus et inconnus.
Je pense en particulier aux réseaux de neurones, mais je suis ouvert à d'autres classificateurs.
Des idées? Merci!