Quelle est la différence entre un problème multiclass et un problème multilabel?
Quelle est la différence entre un problème multiclass et un problème multilabel?
Réponses:
Je soupçonne que la différence réside dans le fait que, dans les problèmes multi-classes, les classes s’excluent mutuellement, tandis que pour les problèmes multi-étiquettes, chaque étiquette représente une tâche de classification différente, mais les tâches sont liées (il ya donc un avantage à les traiter ensemble plutôt que séparément). ). Par exemple, dans le célèbre jeu de données sur les crabes leptograspus, il existe des exemples d'hommes et de femmes de deux formes de crabe de couleur. Vous pouvez aborder ce problème en tant que problème multi-classes avec quatre classes (bleu mâle, bleu femelle, orange mâle, orange femelle) ou en tant que problème multi-étiquettes, une étiquette étant masculine / féminine et l'autre bleue. /Orange. Essentiellement, dans les problèmes multi-étiquettes, un motif peut appartenir à plus d'une classe.
La classification multiclass signifie une tâche de classification comportant plus de deux classes; par exemple, classer un ensemble d'images de fruits qui peuvent être des oranges, des pommes ou des poires. La classification multiclass repose sur l'hypothèse que chaque échantillon est attribué à une seule et même étiquette: un fruit peut être une pomme ou une poire mais pas les deux à la fois.
La classification multi- étiquettes affecte à chaque échantillon un ensemble d'étiquettes cibles. Cela peut être considéré comme une prédiction de propriétés d'un point de données qui ne s'excluent pas mutuellement, telles que des sujets pertinents pour un document. Un texte peut concerner à la fois la religion, la politique, les finances ou l'éducation, ou rien de tout cela.
Tiré de http://scikit-learn.org/stable/modules/multiclass.html
Pour compléter les autres réponses, voici quelques chiffres. Une ligne = la sortie attendue pour un échantillon.
Une colonne = une classe (one-hot encoding)
Une colonne = une classe
Tu vois ça:
En remarque, rien ne vous empêche d’avoir un problème de classification multioutput-multiclass , par exemple:
Un problème multi-classes a l'affectation d'instances à l'une des collections finies et mutuellement exclusives. Comme dans l'exemple déjà cité des crabes (de @Dikran): mâle-bleu, femelle-bleu, mâle-orange, femelle-orange. Chacune de celles-ci est exclusive des autres et ensemble, elles sont complètes.
Une forme de problème multi-étiquettes consiste à les diviser en deux étiquettes, sexe et couleur; où le sexe peut être masculin ou féminin et la couleur peut être bleu ou orange. Mais notez qu'il s'agit d'un cas particulier du problème multi-étiquettes, car chaque instance obtiendra toutes les étiquettes (c'est-à-dire que chaque crabe a un sexe et une couleur).
Les problèmes multi-étiquettes incluent également d'autres cas permettant d'attribuer un nombre variable d'étiquettes à chaque instance. Par exemple, un article dans un journal ou un fil de presse peut être affecté aux catégories NOUVELLES, POLITIQUE, SPORTS, MÉDECINE, etc. Un article sur un événement sportif important se verrait attribuer le label SPORTS; tandis que l’autre, qui implique des tensions politiques révélées par un événement sportif particulier, pourrait porter à la fois les labels SPORTS et POLITICS. Là où je suis, aux États-Unis, les résultats du Superbowl sont étiquetés à la fois SPORTS et NEWS en raison de l'impact sociétal de l'événement.
Notez que cette forme d'étiquetage, avec un nombre variable d'étiquettes, peut être reformulée sous une forme similaire à l'exemple avec les crabes; sauf que chaque étiquette est traitée comme LABEL-X ou non-LABEL-X. Mais toutes les méthodes ne nécessitent pas cette refonte.
Et une autre différence réside dans le fait que le problème multi-étiquettes nécessite que le modèle apprenne la corrélation entre les différentes classes, mais dans les problèmes multi-classes, différentes classes sont indépendantes les unes des autres.