Réponses:
En général, dans la classification, vous avez un ensemble de classes prédéfinies et vous voulez savoir à quelle classe appartient un nouvel objet.
Le clustering essaie de regrouper un ensemble d'objets et de rechercher s'il existe une relation entre les objets.
Dans le contexte de l'apprentissage automatique, la classification est un apprentissage supervisé et le clustering est un apprentissage non supervisé .
Jetez également un œil à la classification et au regroupement sur Wikipedia.
Si vous avez posé cette question à des personnes d'exploration de données ou d'apprentissage automatique, elles utiliseront le terme apprentissage supervisé et apprentissage non supervisé pour vous expliquer la différence entre le clustering et la classification. Alors permettez-moi d'abord de vous expliquer le mot clé supervisé et non supervisé.
Apprentissage supervisé: supposons que vous ayez un panier et qu'il soit rempli de fruits frais et votre tâche consiste à disposer les mêmes fruits de type à un seul endroit. supposons que les fruits soient la pomme, la banane, la cerise et le raisin. de sorte que vous savez déjà de votre travail précédent que, la forme de chaque fruit, il est donc facile d'organiser le même type de fruits en un seul endroit. ici, votre travail précédent est appelé données qualifiées dans l'exploration de données. donc vous apprenez déjà les choses à partir de vos données entraînées, c'est parce que vous avez une variable de réponse qui vous dit que si certains fruits ont des caractéristiques telles ou telles, c'est du raisin, comme cela pour chaque fruit.
Ce type de données que vous obtiendrez des données formées. Ce type d'apprentissage est appelé apprentissage supervisé. Ce problème de résolution de type relève de la classification. Vous apprenez donc déjà les choses afin de pouvoir travailler en toute confiance.
sans surveillance: supposons que vous ayez une corbeille remplie de fruits frais et que votre tâche consiste à disposer les mêmes fruits au même endroit.
Cette fois, vous ne savez rien de ces fruits, vous voyez pour la première fois ces fruits, alors comment allez-vous organiser le même type de fruits.
Ce que vous ferez d'abord, c'est que vous prenez le fruit et que vous sélectionnez tout caractère physique de ce fruit particulier. Supposons que vous ayez pris de la couleur.
Ensuite, vous les arrangerez en fonction de la couleur, puis les groupes ressembleront à ceci. GROUPE DE COULEUR ROUGE: pommes et fruits cerises. GROUPE COULEUR VERTE: bananes et raisins. alors maintenant vous prendrez un autre caractère physique comme taille, alors maintenant les groupes seront quelque chose comme ça. COULEUR ROUGE ET GRANDE TAILLE: pomme. COULEUR ROUGE ET PETITE TAILLE: fruits cerises. COULEUR VERTE ET GRANDE TAILLE: bananes. COULEUR VERTE ET PETITE TAILLE : raisins. travail fait une fin heureuse.
ici, vous n'avez rien appris auparavant, cela signifie pas de données de train et pas de variable de réponse. Ce type d'apprentissage est connu comme apprentissage non supervisé. le clustering relève de l'apprentissage non supervisé.
+ Classification: vous recevez de nouvelles données, vous devez leur attribuer une nouvelle étiquette.
Par exemple, une entreprise souhaite classer ses clients potentiels. Lorsqu'un nouveau client arrive, il doit déterminer s'il s'agit ou non d'un client qui achètera ses produits.
+ Clustering: vous disposez d'un ensemble de transactions historiques qui ont enregistré qui a acheté quoi.
En utilisant des techniques de clustering, vous pouvez connaître la segmentation de vos clients.
Je suis sûr qu'un certain nombre d'entre vous ont entendu parler de l'apprentissage automatique. Une douzaine d'entre vous pourraient même savoir de quoi il s'agit. Et certains d'entre vous ont peut-être également travaillé avec des algorithmes d'apprentissage automatique. Tu vois où ça va? Peu de gens connaissent la technologie qui sera absolument essentielle dans 5 ans. Siri est l'apprentissage automatique. Alexa d'Amazon est l'apprentissage automatique. Les systèmes de recommandation d'annonces et d'articles d'achat sont un apprentissage automatique. Essayons de comprendre l'apprentissage automatique avec une simple analogie avec un garçon de 2 ans. Juste pour le plaisir, appelons-le Kylo Ren
Supposons que Kylo Ren ait vu un éléphant. Que lui dira son cerveau (rappelez-vous qu'il a une capacité de réflexion minimale, même s'il est le successeur de Vader). Son cerveau lui dira qu'il a vu une grosse créature en mouvement qui était de couleur grise. Il voit un chat à côté, et son cerveau lui dit que c'est une petite créature en mouvement qui est de couleur dorée. Enfin, il voit un sabre lumineux à côté et son cerveau lui dit que c'est un objet non vivant avec lequel il peut jouer!
Son cerveau à ce stade sait que le sabre est différent de l'éléphant et du chat, parce que le sabre est quelque chose avec lequel jouer et ne bouge pas tout seul. Son cerveau peut comprendre cela même si Kylo ne sait pas ce que signifie le mobile. Ce phénomène simple est appelé Clustering.
L'apprentissage automatique n'est rien d'autre que la version mathématique de ce processus. Beaucoup de gens qui étudient les statistiques ont réalisé qu'ils pouvaient faire fonctionner certaines équations de la même manière que le cerveau. Le cerveau peut regrouper des objets similaires, le cerveau peut apprendre des erreurs et le cerveau peut apprendre à identifier les choses.
Tout cela peut être représenté par des statistiques, et la simulation informatique de ce processus s'appelle Machine Learning. Pourquoi avons-nous besoin de la simulation informatique? parce que les ordinateurs peuvent faire des calculs lourds plus rapidement que le cerveau humain. J'adorerais entrer dans la partie mathématique / statistique de l'apprentissage automatique, mais vous ne voulez pas vous lancer sans clarifier certains concepts au préalable.
Revenons à Kylo Ren. Disons que Kylo ramasse le sabre et commence à jouer avec. Il frappe accidentellement un stormtrooper et le stormtrooper se blesse. Il ne comprend pas ce qui se passe et continue de jouer. Ensuite, il frappe un chat et le chat se blesse. Cette fois, Kylo est sûr d'avoir fait quelque chose de mal et essaie d'être un peu prudent. Mais étant donné ses mauvaises compétences au sabre, il frappe l'éléphant et est absolument sûr qu'il est en difficulté. Il devient extrêmement prudent par la suite, et ne frappe son père qu'à dessein comme nous l'avons vu dans Force Awakens !!
Tout ce processus d'apprentissage de votre erreur peut être imité avec des équations, où le sentiment de faire quelque chose de mal est représenté par une erreur ou un coût. Ce processus d'identification de ce qu'il ne faut pas faire avec un sabre est appelé Classification. Le clustering et la classification sont les bases absolues de l'apprentissage automatique. Regardons la différence entre eux.
Kylo a fait la différence entre les animaux et le sabre laser parce que son cerveau a décidé que les sabres laser ne pouvaient pas bouger seuls et étaient donc différents. La décision était basée uniquement sur les objets présents (données) et aucune aide ou conseil externe n'a été fourni. Contrairement à cela, Kylo a différencié l'importance d'être prudent avec le sabre laser en observant d'abord ce que peut frapper un objet. La décision n'était pas entièrement basée sur le sabre, mais sur ce qu'il pouvait faire à différents objets. En bref, il y avait de l'aide ici.
En raison de cette différence d'apprentissage, le clustering est appelé méthode d'apprentissage non supervisé et la classification est appelée méthode d'apprentissage supervisé. Ils sont très différents dans le monde de l'apprentissage automatique et sont souvent dictés par le type de données présentes. Obtenir des données étiquetées (ou des choses qui nous aident à apprendre, comme stormtrooper, éléphant et chat dans le cas de Kylo) n'est souvent pas facile et devient très compliqué lorsque les données à différencier sont volumineuses. D'un autre côté, l'apprentissage sans étiquettes peut avoir ses propres inconvénients, comme ne pas savoir quels sont les titres des étiquettes. Si Kylo devait apprendre à être prudent avec le sabre sans aucun exemple ni aide, il ne saurait pas ce qu'il ferait. Il saurait juste que ce n'est pas supposé être fait. C'est une sorte d'analogie boiteuse mais vous obtenez le point!
Nous commençons tout juste avec l'apprentissage automatique. La classification elle-même peut être une classification de nombres continus ou une classification d'étiquettes. Par exemple, si Kylo devait classer quelle est la hauteur de chaque stormtrooper, il y aurait beaucoup de réponses car les hauteurs peuvent être 5,0, 5,01, 5,011, etc. Mais une classification simple comme les types de sabres légers (rouge, bleu vert) aurait des réponses très limitées. En fait, ils peuvent être représentés avec des nombres simples. Le rouge peut être 0, le bleu peut être 1 et le vert peut être 2.
Si vous connaissez les mathématiques de base, vous savez que 0,1,2 et 5.1,5.01,5.011 sont différents et sont appelés des nombres discrets et continus respectivement. La classification des nombres discrets est appelée régression logistique et la classification des nombres continus est appelée régression. La régression logistique est également connue sous le nom de classification catégorielle, alors ne soyez pas confus lorsque vous lisez ce terme ailleurs
C'était une introduction très basique au Machine Learning. Je vais m'attarder sur le côté statistique dans mon prochain post. Veuillez me faire savoir si j'ai besoin de corrections :)
Deuxième partie publiée ici .
Je suis un nouveau venu dans l'exploration de données, mais comme mon manuel l'indique, CLASSICIATION est censé être un apprentissage supervisé et un regroupement d'apprentissage non supervisé. La différence entre l'apprentissage supervisé et l'apprentissage non supervisé peut être trouvée ici .
L'affectation de classes prédéfinies à de nouvelles observations , basée sur l' apprentissage à partir d'exemples.
C'est l'une des tâches clés de l'apprentissage automatique.
Bien qu'il soit populairement rejeté comme une "classification non supervisée", il en va tout autrement.
Contrairement à ce que de nombreux apprenants en machine vous apprendront, il ne s'agit pas d'affecter des "classes" à des objets, mais sans les avoir prédéfinis. C'est le point de vue très limité des personnes qui ont fait trop de classification; un exemple typique de si vous avez un marteau (classificateur), tout ressemble à un clou (problème de classification) pour vous . Mais c'est aussi pourquoi les gens de la classification ne comprennent pas le clustering.
Au lieu de cela, considérez-le comme une découverte de structure . La tâche du clustering est de trouver une structure (par exemple des groupes) dans vos données que vous ne connaissiez pas auparavant . Le regroupement a réussi si vous avez appris quelque chose de nouveau. Cela a échoué, si vous ne disposiez que de la structure que vous connaissiez déjà.
L'analyse de cluster est une tâche clé de l'exploration de données (et du vilain petit canard dans l'apprentissage automatique, alors n'écoutez pas les apprenants qui rejettent le clustering).
Cela a été répété de haut en bas dans la littérature, mais l'apprentissage non supervisé est un peu compliqué . Il n'existe pas, mais c'est un oxymore comme le "renseignement militaire".
Soit l'algorithme apprend à partir d'exemples (il s'agit alors d'un "apprentissage supervisé"), soit il n'apprend pas. Si toutes les méthodes de clustering sont "d'apprentissage", le calcul du minimum, du maximum et de la moyenne d'un ensemble de données est également un "apprentissage non supervisé". Ensuite, tout calcul "apprenait" sa sortie. Ainsi, le terme «apprentissage non supervisé» est totalement dénué de sens , il signifie tout et rien.
Cependant, certains algorithmes d '«apprentissage non supervisé» entrent dans la catégorie d' optimisation . Par exemple, k-means est une optimisation des moindres carrés. De telles méthodes sont partout dans les statistiques, donc je ne pense pas que nous ayons besoin de les étiqueter "apprentissage non supervisé", mais nous devrions plutôt continuer à les appeler "problèmes d'optimisation". C'est plus précis et plus significatif. Il existe de nombreux algorithmes de clustering qui n'impliquent pas d'optimisation et qui ne correspondent pas bien aux paradigmes d'apprentissage automatique. Alors arrêtez de les serrer sous le parapluie "apprentissage non supervisé".
Il y a un "apprentissage" associé au clustering, mais ce n'est pas le programme qui apprend. C'est l'utilisateur qui est censé apprendre de nouvelles choses sur son ensemble de données.
En regroupant, vous pouvez regrouper des données avec vos propriétés souhaitées telles que le nombre, la forme et d'autres propriétés des clusters extraits. Alors que, dans la classification, le nombre et la forme des groupes sont fixes. La plupart des algorithmes de clustering donnent le nombre de clusters comme paramètre. Cependant, il existe certaines approches pour déterminer le nombre approprié de grappes.
Tout d'abord, comme de nombreuses réponses le disent ici: la classification est un apprentissage supervisé et le clustering n'est pas supervisé. Ça signifie:
La classification a besoin de données étiquetées pour que les classificateurs puissent être formés sur ces données, puis commencer à classer les nouvelles données invisibles en fonction de ce qu'il sait. L'apprentissage non supervisé comme le clustering n'utilise pas de données étiquetées, et ce qu'il fait réellement, c'est de découvrir des structures intrinsèques dans les données comme des groupes.
Une autre différence entre les deux techniques (liée à la précédente) est le fait que la classification est une forme de problème de régression discrète où la sortie est une variable dépendante catégorielle. Alors que la sortie du clustering produit un ensemble de sous-ensembles appelés groupes. La façon d'évaluer ces deux modèles est également différente pour la même raison: dans la classification, vous devez souvent vérifier la précision et le rappel, des choses comme le sur-ajustement et le sous-ajustement, etc. Ces choses vous diront à quel point le modèle est bon. Mais dans le clustering, vous avez généralement besoin de la vision et de l'expert pour interpréter ce que vous trouvez, car vous ne savez pas quel type de structure vous avez (type de groupe ou de cluster). C'est pourquoi le clustering appartient à l'analyse exploratoire des données.
Enfin, je dirais que les applications sont la principale différence entre les deux. La classification, comme le dit le mot, est utilisée pour discriminer les cas qui appartiennent à une classe ou à une autre, par exemple un homme ou une femme, un chat ou un chien, etc. Le regroupement est souvent utilisé dans le diagnostic d'une maladie médicale, la découverte de modèles, etc.
Classification : prédire les résultats dans une sortie discrète => mapper les variables d'entrée en catégories discrètes
Cas d'utilisation populaires:
Classification des e-mails: spam ou non-spam
Prêt de sanction au client: Oui s'il est capable de payer EMI pour le montant du prêt sanctionné. Non s'il ne peut pas
Identification des cellules tumorales cancéreuses: est-elle critique ou non critique?
Analyse des sentiments des tweets: le tweet est-il positif ou négatif ou neutre
Classification des nouvelles: classer les nouvelles dans l'une des classes prédéfinies - Politique, Sports, Santé, etc.
Clustering : est la tâche de regrouper un ensemble d'objets de telle manière que les objets d'un même groupe (appelé cluster) soient plus similaires (dans un certain sens) les uns aux autres qu'à ceux des autres groupes (clusters)
Cas d'utilisation populaires:
Marketing: découvrez les segments de clientèle à des fins de marketing
Biologie: classification entre différentes espèces de plantes et d'animaux
Bibliothèques: regrouper différents livres sur la base de sujets et d'informations
Assurance: Reconnaître les clients, leurs polices et identifier les fraudes
Urbanisme: Créez des groupes de maisons et étudiez leurs valeurs en fonction de leur situation géographique et d'autres facteurs.
Études sismiques: Identifier les zones dangereuses
Références:
Classification - Prédit les étiquettes de classe catégorielles - Classifie les données (construit un modèle) sur la base d'un ensemble d'apprentissage et les valeurs (étiquettes de classe) dans un attribut d'étiquette de classe - Utilise le modèle pour classer les nouvelles données
Cluster: une collection d'objets de données - Semblables les uns aux autres au sein du même cluster - Différents des objets des autres clusters
Le clustering vise à trouver des groupes dans les données. «Cluster» est un concept intuitif et n'a pas de définition mathématiquement rigoureuse. Les membres d'un cluster doivent être similaires les uns aux autres et différents des membres d'autres clusters. Un algorithme de clustering opère sur un ensemble de données sans étiquette Z et produit une partition sur celui-ci.
Pour les classes et les étiquettes de classe, la classe contient des objets similaires, tandis que les objets de différentes classes sont différents. Certaines classes ont une signification claire et, dans le cas le plus simple, s'excluent mutuellement. Par exemple, dans la vérification de signature, la signature est authentique ou falsifiée. La vraie classe est l'une des deux, même si nous ne pouvons pas deviner correctement à partir de l'observation d'une signature particulière.
Le regroupement est une méthode de regroupement d'objets de telle manière que les objets ayant des caractéristiques similaires se rejoignent et que les objets ayant des caractéristiques différentes se séparent. Il s'agit d'une technique courante d'analyse statistique des données utilisée dans l'apprentissage automatique et l'exploration de données.
La classification est un processus de catégorisation où les objets sont reconnus, différenciés et compris sur la base de l'ensemble de données d'apprentissage. La classification est une technique d'apprentissage supervisé où un ensemble de formation et des observations correctement définies sont disponibles.
Extrait du livre Mahout in Action, et je pense que cela explique très bien la différence:
Les algorithmes de classification sont liés, mais toujours très différents, aux algorithmes de clustering tels que l'algorithme k-means.
Les algorithmes de classification sont une forme d'apprentissage supervisé, par opposition à l'apprentissage non supervisé, qui se produit avec les algorithmes de clustering.
Un algorithme d'apprentissage supervisé est celui qui a donné des exemples qui contiennent la valeur souhaitée d'une variable cible. Les algorithmes non supervisés ne reçoivent pas la réponse souhaitée, mais doivent plutôt trouver quelque chose de plausible par eux-mêmes.
Une doublure pour la classification:
Classification des données en catégories prédéfinies
Une doublure pour le clustering:
Regroupement des données dans un ensemble de catégories
Différence clé:
La classification consiste à prendre des données et à les placer dans des catégories prédéfinies et, dans le clustering, l'ensemble de catégories dans lequel vous souhaitez regrouper les données n'est pas connu à l'avance.
Conclusion:
J'ai écrit un long article sur le même sujet que vous pouvez trouver ici:
Si vous essayez de classer un grand nombre de feuilles sur votre étagère (en fonction de la date ou d'une autre spécification du fichier), vous CLASSIFIEZ.
Si vous deviez créer des clusters à partir de l'ensemble de feuilles, cela signifierait qu'il y a quelque chose de similaire entre les feuilles.
Il existe deux définitions dans l'exploration de données "supervisé" et "non supervisé". Quand quelqu'un dit à l'ordinateur, à l'algorithme, au code, ... que cette chose est comme une pomme et qu'elle est comme une orange, c'est un apprentissage supervisé et un apprentissage supervisé (comme des balises pour chaque échantillon dans un ensemble de données) pour classer le données, vous obtiendrez une classification. Mais d'un autre côté, si vous laissez l'ordinateur découvrir ce qui est quoi et différenciez les caractéristiques de l'ensemble de données donné, en fait l'apprentissage sans supervision, pour classer l'ensemble de données, cela s'appellerait le clustering. Dans ce cas, les données qui sont transmises à l'algorithme n'ont pas de balises et l'algorithme doit trouver différentes classes.
L'apprentissage automatique ou l'IA est largement perçu par la tâche qu'il effectue / accomplit.
À mon avis, en pensant au clustering et à la classification dans la notion de tâche qu'ils réalisent, cela peut vraiment aider à comprendre la différence entre les deux.
Le regroupement consiste à regrouper les choses et la classification consiste, en quelque sorte, à étiqueter les choses.
Supposons que vous soyez dans une salle de fête où tous les hommes sont en costumes et les femmes en robes.
Maintenant, vous posez quelques questions à votre ami:
Q1: Heyy, pouvez-vous m'aider à regrouper des gens?
Les réponses possibles que votre ami peut donner sont:
1: Il peut regrouper des personnes en fonction du sexe, masculin ou féminin
2: Il peut regrouper des personnes en fonction de leurs vêtements, 1 portant des costumes d'autres portant des robes
3: Il peut regrouper les gens en fonction de la couleur de leurs cheveux
4: Il peut grouper des personnes en fonction de leur tranche d'âge, etc. etc. etc.
Il existe de nombreuses façons dont votre ami peut accomplir cette tâche.
Bien sûr, vous pouvez influencer son processus de prise de décision en fournissant des entrées supplémentaires telles que:
Pouvez-vous m'aider à regrouper ces personnes en fonction du sexe (ou du groupe d'âge, de la couleur des cheveux ou de la robe, etc.)
Q2:
Avant le deuxième trimestre, vous devez effectuer un travail préalable.
Vous devez enseigner ou informer votre ami afin qu'il puisse prendre une décision éclairée. Alors, disons que vous avez dit à votre ami que:
Les personnes aux cheveux longs sont des femmes.
Les personnes aux cheveux courts sont des hommes.
Q2. Maintenant, vous montrez à une personne aux cheveux longs et demandez à votre ami - Est-ce un homme ou une femme?
La seule réponse à laquelle vous pouvez vous attendre est: femme.
Bien sûr, il peut y avoir des hommes à poils longs et des femmes à poils courts dans la fête. Mais, la réponse est correcte en fonction de l'apprentissage que vous avez fourni à votre ami. Vous pouvez encore améliorer le processus en enseignant à votre ami comment différencier les deux.
Dans l'exemple ci-dessus,
Le premier trimestre représente la tâche accomplie par le clustering.
Dans le clustering, vous fournissez les données (personnes) à l'algorithme (votre ami) et lui demandez de regrouper les données.
Maintenant, c'est à l'algorithme de décider quelle est la meilleure façon de grouper? (Sexe, couleur ou tranche d'âge).
Encore une fois, vous pouvez certainement influencer la décision prise par l'algorithme en fournissant des entrées supplémentaires.
Le T2 représente la tâche accomplie par la classification.
Là, vous donnez à votre algorithme (votre ami) des données (People), appelées données de formation, et lui faites apprendre quelles données correspondent à quelle étiquette (Homme ou Femme). Ensuite, vous pointez votre algorithme vers certaines données, appelées données de test, et lui demandez de déterminer s'il s'agit d'un homme ou d'une femme. Mieux est votre enseignement, meilleure est votre prédiction.
Et le Pré-travail en Q2 ou Classification n'est rien d'autre que la formation de votre modèle afin qu'il puisse apprendre à se différencier. En Clustering ou Q1, ce pré-travail fait partie du regroupement.
J'espère que cela aide quelqu'un.
Merci
Classification - Un ensemble de données peut avoir différents groupes / classes. rouge, vert et noir. La classification va essayer de trouver des règles qui les divisent en différentes classes.
Mise en cluster - si un ensemble de données n'a pas de classe et que vous souhaitez les mettre dans une classe / un regroupement, vous effectuez une mise en cluster. Les cercles violets ci-dessus.
Si les règles de classification ne sont pas bonnes, vous aurez une mauvaise classification dans les tests ou vos règles ne sont pas assez correctes.
si le regroupement n'est pas bon, vous aurez beaucoup de valeurs aberrantes, c'est-à-dire. les points de données ne peuvent tomber dans aucun cluster.
Les principales différences entre la classification et le regroupement sont les suivantes: La classification est le processus de classification des données à l'aide d'étiquettes de classe. D'un autre côté, le clustering est similaire à la classification mais il n'y a pas d'étiquettes de classe prédéfinies. La classification est axée sur l'apprentissage supervisé. Par contre, le clustering est également connu sous le nom d'apprentissage non supervisé. L'échantillon de formation est fourni dans la méthode de classification tandis que dans le cas de regroupement, les données de formation ne sont pas fournies.
J'espère que cela vous aidera!
Je pense que la classification consiste à classer les enregistrements d'un ensemble de données en classes prédéfinies ou même à définir des classes en déplacement. Je le considère comme un pré-requis pour toute exploration de données précieuse, j'aime à y penser lors d'un apprentissage non supervisé, c'est-à-dire que l'on ne sait pas ce qu'il recherche pendant que l'extraction des données et de la classification sert de bon point de départ
Le regroupement à l'autre extrémité relève de l'apprentissage supervisé, c'est-à-dire que l'on sait quels paramètres rechercher, la corrélation entre eux ainsi que les niveaux critiques. Je crois que cela nécessite une certaine compréhension des statistiques et des mathématiques