Réponses:
Puisque vous posez cette question très basique, il semble qu'il vaut la peine de spécifier ce qu'est le Machine Learning lui-même.
L'apprentissage automatique est une classe d'algorithmes basée sur les données, c'est-à-dire que contrairement aux algorithmes "normaux", ce sont les données qui "disent" quelle est la "bonne réponse". Exemple: un algorithme hypothétique non-machine learning pour la détection des visages dans les images tenterait de définir ce qu'est un visage (disque rond de couleur peau, avec une zone sombre où vous attendez les yeux, etc.). Un algorithme d'apprentissage automatique n'aurait pas une telle définition codée, mais "apprendrait par des exemples": vous afficherez plusieurs images de visages et de non-visages et un bon algorithme finira par apprendre et être capable de prédire si un invisible l'image est un visage.
Cet exemple particulier de détection de visage est supervisé , ce qui signifie que vos exemples doivent être étiquetés ou dire explicitement lesquels sont des visages et lesquels ne le sont pas.
Dans un algorithme non supervisé , vos exemples ne sont pas étiquetés , c'est-à-dire que vous ne dites rien. Bien sûr, dans un tel cas, l'algorithme lui-même ne peut pas "inventer" ce qu'est un visage, mais il peut essayer de regrouper les données en différents groupes, par exemple, il peut distinguer que les visages sont très différents des paysages, qui sont très différents des chevaux.
Puisqu'une autre réponse le mentionne (mais de manière incorrecte): il existe des formes de supervision "intermédiaires", c'est -à- dire un apprentissage semi-supervisé et actif . Techniquement, ce sont des méthodes supervisées dans lesquelles il existe un moyen «intelligent» d'éviter un grand nombre d'exemples étiquetés. Dans l'apprentissage actif, l'algorithme lui-même décide quelle chose vous devez étiqueter (par exemple, il peut être assez sûr d'un paysage et d'un cheval, mais il peut vous demander de confirmer si un gorille est bien l'image d'un visage). Dans l'apprentissage semi-supervisé, il y a deux algorithmes différents qui commencent par les exemples étiquetés, puis se "racontent" la façon dont ils pensent à un grand nombre de données non étiquetées. De cette «discussion», ils apprennent.
L'apprentissage supervisé est lorsque les données avec lesquelles vous alimentez votre algorithme sont "marquées" ou "étiquetées", pour aider votre logique à prendre des décisions.
Exemple: filtrage anti-spam Bayes, où vous devez signaler un élément comme spam pour affiner les résultats.
L'apprentissage non supervisé sont des types d'algorithmes qui tentent de trouver des corrélations sans entrées externes autres que les données brutes.
Exemple: algorithmes de clustering d'exploration de données.
Les applications dans lesquelles les données d'apprentissage comprennent des exemples des vecteurs d'entrée avec leurs vecteurs cibles correspondants sont appelées problèmes d'apprentissage supervisé.
Dans d'autres problèmes de reconnaissance de formes, les données d'apprentissage se composent d'un ensemble de vecteurs d'entrée x sans aucune valeur cible correspondante. Le but de ces problèmes d'apprentissage non supervisé peut être de découvrir des groupes d'exemples similaires dans les données, où il est appelé clustering
Reconnaissance des formes et apprentissage automatique (Bishop, 2006)
Dans l'apprentissage supervisé, l'entrée x
est fournie avec le résultat attendu y
(c'est-à-dire, la sortie que le modèle est censé produire lorsque l'entrée est x
), qui est souvent appelée la "classe" (ou "étiquette") de l'entrée correspondante x
.
Dans l'apprentissage non supervisé, la «classe» d'un exemple x
n'est pas fournie. Ainsi, l'apprentissage non supervisé peut être considéré comme la découverte d'une «structure cachée» dans un ensemble de données non étiqueté.
Les approches de l'apprentissage supervisé comprennent:
Classification (1R, Naive Bayes, algorithme d'apprentissage de l'arbre de décision, tel que ID3 CART, etc.)
Prédiction de valeur numérique
Les approches de l'apprentissage non supervisé comprennent:
Clustering (K-means, clustering hiérarchique)
Apprentissage des règles d'association
Par exemple, très souvent, la formation d'un réseau de neurones est un apprentissage supervisé: vous dites au réseau à quelle classe correspond le vecteur de caractéristiques que vous alimentez.
Le clustering est un apprentissage non supervisé: vous laissez l'algorithme décider comment grouper les échantillons en classes qui partagent des propriétés communes.
Un autre exemple d'apprentissage non supervisé est les cartes auto-organisées de Kohonen .
Je peux vous donner un exemple.
Supposons que vous deviez reconnaître quel véhicule est une voiture et lequel est une moto.
Dans le cas d'apprentissage supervisé , votre jeu de données d'entrée (formation) doit être étiqueté, c'est-à-dire que pour chaque élément d'entrée de votre jeu de données d'entrée (formation), vous devez spécifier s'il représente une voiture ou une moto.
Dans le cas d'apprentissage non supervisé, vous ne nommez pas les entrées. Le modèle non supervisé regroupe l'entrée en grappes sur la base, par exemple, de caractéristiques / propriétés similaires. Donc, dans ce cas, il n'y a pas d'étiquettes comme "voiture".
Enseignement supervisé
L'apprentissage supervisé est basé sur la formation d'un échantillon de données à partir d'une source de données avec une classification correcte déjà attribuée. De telles techniques sont utilisées dans les modèles à action directe ou Perceptron multicouche (MLP). Ces MLP ont trois caractéristiques distinctives:
Ces caractéristiques ainsi que l'apprentissage par la formation résolvent des problèmes difficiles et divers. L'apprentissage par la formation dans un modèle ANN supervisé est également appelé algorithme de rétropropagation d'erreur. L'algorithme d'apprentissage de correction d'erreur entraîne le réseau sur la base des échantillons d'entrée-sortie et trouve le signal d'erreur, qui est la différence entre la sortie calculée et la sortie souhaitée et ajuste les poids synaptiques des neurones proportionnels au produit de l'erreur signal et l'instance d'entrée du poids synaptique. Sur la base de ce principe, l'apprentissage par propagation de retour d'erreur se produit en deux passes:
Passe avant:
Ici, le vecteur d'entrée est présenté au réseau. Ce signal d'entrée se propage vers l'avant, neurone par neurone à travers le réseau et émerge à l'extrémité de sortie du réseau comme signal de sortie: y(n) = φ(v(n))
où v(n)
est le champ local induit d'un neurone défini par v(n) =Σ w(n)y(n).
La sortie calculée à la couche de sortie o (n) est par rapport à la réponse souhaitée d(n)
et trouve l'erreur e(n)
pour ce neurone. Les poids synaptiques du réseau lors de ce passage sont les mêmes.
Passe arrière:
Le signal d'erreur qui provient du neurone de sortie de cette couche se propage vers l'arrière à travers le réseau. Cela calcule le gradient local pour chaque neurone dans chaque couche et permet aux poids synaptiques du réseau de subir des changements conformément à la règle du delta comme suit:
Δw(n) = η * δ(n) * y(n).
Ce calcul récursif se poursuit, avec une passe avant suivie d'une passe arrière pour chaque modèle d'entrée jusqu'à ce que le réseau converge.
Le paradigme d'apprentissage supervisé d'un RNA est efficace et trouve des solutions à plusieurs problèmes linéaires et non linéaires tels que la classification, le contrôle d'usine, la prévision, la prévision, la robotique, etc.
Apprentissage non supervisé
Les réseaux de neurones auto-organisés apprennent en utilisant un algorithme d'apprentissage non supervisé pour identifier les modèles cachés dans les données d'entrée non étiquetées. Cette non supervisé se réfère à la capacité d'apprendre et d'organiser des informations sans fournir un signal d'erreur pour évaluer la solution potentielle. Le manque de direction de l'algorithme d'apprentissage dans un apprentissage non supervisé peut parfois être avantageux, car il permet à l'algorithme de rechercher des modèles qui n'ont pas été précédemment pris en compte. Les principales caractéristiques des cartes auto-organisées (SOM) sont:
La couche de calcul est également appelée couche compétitive, car les neurones de la couche se font concurrence pour devenir actifs. Par conséquent, cet algorithme d'apprentissage est appelé algorithme compétitif. L'algorithme non supervisé dans SOM fonctionne en trois phases:
Phase de compétition:
pour chaque modèle d'entrée x
, présenté au réseau, le produit interne avec poids synaptique w
est calculé et les neurones dans la couche compétitive trouvent une fonction discriminante qui induit une compétition entre les neurones et le vecteur de poids synaptique qui est proche du vecteur d'entrée dans la distance euclidienne est annoncé vainqueur du concours. Ce neurone est appelé le meilleur neurone correspondant,
i.e. x = arg min ║x - w║.
Phase coopérative:
le neurone gagnant détermine le centre d'un voisinage topologique h
de neurones coopérants. Ceci est réalisé par l'interaction latérale d
entre les neurones coopératifs. Ce voisinage topologique réduit sa taille sur une période de temps.
Phase adaptative:
permet au neurone gagnant et à ses neurones voisins d'augmenter leurs valeurs individuelles de la fonction discriminante par rapport au modèle d'entrée grâce à des ajustements de poids synaptiques appropriés,
Δw = ηh(x)(x –w).
Lors de la présentation répétée des modèles de formation, les vecteurs de poids synaptiques ont tendance à suivre la distribution des modèles d'entrée en raison de la mise à jour du quartier et ainsi, ANN apprend sans superviseur.
Le modèle d'auto-organisation représente naturellement le comportement neuro-biologique et est donc utilisé dans de nombreuses applications du monde réel telles que le clustering, la reconnaissance vocale, la segmentation de texture, le codage vectoriel, etc.
J'ai toujours trouvé la distinction entre apprentissage non supervisé et apprentissage supervisé arbitraire et un peu déroutante. Il n'y a pas vraiment de distinction entre les deux cas, il existe plutôt une gamme de situations dans lesquelles un algorithme peut avoir plus ou moins de «supervision». L'existence d'un apprentissage semi-supervisé est un exemple évident où la ligne est floue.
J'ai tendance à penser que la supervision donne un retour à l'algorithme sur les solutions à privilégier. Pour un paramètre supervisé traditionnel, tel que la détection de spam, vous dites à l'algorithme "ne faites aucune erreur sur l'ensemble d'entraînement" ; pour un paramètre traditionnel non supervisé, comme le clustering, vous dites à l'algorithme "les points qui sont proches les uns des autres doivent être dans le même cluster" . Il se trouve que la première forme de rétroaction est beaucoup plus spécifique que la seconde.
En bref, quand quelqu'un dit «supervisé», pensez à la classification, quand il dit «sans surveillance», pensez au clustering et essayez de ne pas trop vous en préoccuper.
Il existe déjà de nombreuses réponses qui expliquent les différences en détail. J'ai trouvé ces gifs sur codeacademy et ils m'aident souvent à expliquer les différences efficacement.
Notez que les images d'entraînement ont des étiquettes ici et que le modèle apprend les noms des images.
Notez que ce qui se fait ici est simplement un regroupement (clustering) et que le modèle ne sait rien sur aucune image.
Apprentissage automatique: il explore l'étude et la construction d'algorithmes qui peuvent apprendre et faire des prédictions sur les données.Ces algorithmes fonctionnent en construisant un modèle à partir d'exemples d'entrées afin de faire des prédictions ou des décisions basées sur des données exprimées en sorties, plutôt que de suivre strictement statique instructions du programme.
Apprentissage supervisé: il s'agit de la tâche d'apprentissage automatique consistant à déduire une fonction à partir de données d'entraînement étiquetées. Les données d'apprentissage consistent en un ensemble d'exemples d'apprentissage. Dans l'apprentissage supervisé, chaque exemple est une paire composée d'un objet d'entrée (généralement un vecteur) et d'une valeur de sortie souhaitée (également appelée signal de supervision). Un algorithme d'apprentissage supervisé analyse les données d'apprentissage et produit une fonction inférée, qui peut être utilisée pour cartographier de nouveaux exemples.
L'ordinateur est présenté avec des exemples d'entrées et leurs sorties souhaitées, données par un "enseignant", et le but est d'apprendre une règle générale qui mappe les entrées aux sorties. Plus précisément, un algorithme d'apprentissage supervisé prend un ensemble connu de données d'entrée et de réponses connues aux données (sortie), et forme un modèle pour générer des prédictions raisonnables pour la réponse aux nouvelles données.
Apprentissage non supervisé: c'est apprendre sans professeur. Une chose fondamentale que vous voudrez peut-être faire avec les données est de les visualiser. C'est la tâche d'apprentissage automatique consistant à déduire une fonction pour décrire une structure cachée à partir de données non étiquetées. Étant donné que les exemples donnés à l'apprenant ne sont pas libellés, il n'y a pas de signal d'erreur ou de récompense pour évaluer une solution potentielle. Cela distingue l'apprentissage non supervisé de l'apprentissage supervisé. L'apprentissage non supervisé utilise des procédures qui tentent de trouver des partitions naturelles de modèles.
Avec un apprentissage non supervisé, il n'y a pas de rétroaction basée sur les résultats de la prédiction, c'est-à-dire qu'il n'y a pas d'enseignant pour vous corriger. En conséquence, il appartient au schéma / modèle d'apprentissage de trouver des modèles ou de découvrir les groupes de données d'entrée.
Vous devez utiliser des méthodes d'apprentissage non supervisées lorsque vous avez besoin d'une grande quantité de données pour former vos modèles, et la volonté et la capacité d'expérimenter et d'explorer, et bien sûr un défi qui n'est pas bien résolu par des méthodes plus établies. il est possible d'apprendre des modèles plus grands et plus complexes qu'avec l'apprentissage supervisé. En voici un bon exemple
.
Apprentissage supervisé: disons qu'un enfant va au jardin d'enfants. ici, l'enseignant lui montre 3 jouets-maison, balle et voiture. maintenant le professeur lui donne 10 jouets. il les classera dans 3 boîtes de maison, balle et voiture en fonction de son expérience précédente. donc l'enfant a d'abord été supervisé par des enseignants pour obtenir les bonnes réponses pour quelques séries. puis il a été testé sur des jouets inconnus.
Apprentissage non supervisé: encore une fois l'exemple de la maternelle. Un enfant reçoit 10 jouets. on lui dit de segmenter les similaires. donc basé sur des caractéristiques comme la forme, la taille, la couleur, la fonction, etc., il essaiera de faire 3 groupes dire A, B, C et les grouper.
Le mot Superviser signifie que vous donnez une supervision / instruction à la machine pour l'aider à trouver des réponses. Une fois qu'il a appris les instructions, il peut facilement prédire un nouveau cas.
Sans supervision signifie qu'il n'y a pas de supervision ou d'instructions pour trouver des réponses / étiquettes et la machine utilisera son intelligence pour trouver un modèle dans nos données. Ici, il ne fera pas de prédiction, il essaiera simplement de trouver des clusters qui ont des données similaires.
L'algorithme d'apprentissage d'un réseau neuronal peut être supervisé ou non supervisé.
Un réseau neuronal est censé apprendre supervisé si la sortie souhaitée est déjà connue. Exemple: association de motifs
Les réseaux neuronaux qui apprennent sans surveillance n'ont pas de telles sorties cibles. Il n'est pas possible de déterminer à quoi ressemblera le résultat du processus d'apprentissage. Au cours du processus d'apprentissage, les unités (valeurs de poids) d'un tel réseau neuronal sont "disposées" à l'intérieur d'une certaine plage, en fonction de valeurs d'entrée données. L'objectif est de regrouper des unités similaires proches dans certaines zones de la plage de valeurs. Exemple: classification des motifs
Apprentissage supervisé, compte tenu des données avec une réponse.
Étant donné les e-mails étiquetés comme spam / non spam, découvrez un filtre anti-spam.
Étant donné un ensemble de données sur les patients diagnostiqués comme diabétiques ou non, apprenez à classer les nouveaux patients comme diabétiques ou non.
L'apprentissage non supervisé, étant donné les données sans réponse, laissez le PC regrouper les choses.
Compte tenu d'un ensemble d'articles de presse trouvés sur le Web, regroupez l'ensemble d'articles sur la même histoire.
Grâce à une base de données de données personnalisées, découvrez automatiquement les segments de marché et regroupez les clients en différents segments de marché.
Enseignement supervisé
En cela, chaque modèle d'entrée utilisé pour former le réseau est associé à un modèle de sortie, qui est la cible ou le modèle souhaité. Un enseignant est supposé être présent pendant le processus d'apprentissage, lorsqu'une comparaison est effectuée entre la sortie calculée du réseau et la sortie attendue correcte, pour déterminer l'erreur. L'erreur peut ensuite être utilisée pour modifier les paramètres du réseau, ce qui entraîne une amélioration des performances.
Apprentissage non supervisé
Dans cette méthode d'apprentissage, la sortie cible n'est pas présentée au réseau. C'est comme s'il n'y avait pas d'enseignant pour présenter le modèle souhaité et, par conséquent, le système apprend de lui-même en découvrant et en s'adaptant aux caractéristiques structurelles des modèles d'entrée.
Apprentissage supervisé : vous donnez en entrée des données d'exemples diversement étiquetées, ainsi que les bonnes réponses. Cet algorithme en tirera des enseignements et commencera à prédire les résultats corrects en fonction des entrées par la suite. Exemple : filtre anti-courrier électronique
Apprentissage non supervisé : vous donnez simplement des données et ne dites rien - comme des étiquettes ou des réponses correctes. L'algorithme analyse automatiquement les modèles dans les données. Exemple : Google Actualités
Je vais essayer de rester simple.
Apprentissage supervisé: Dans cette technique d'apprentissage, on nous donne un ensemble de données et le système connaît déjà la sortie correcte de l'ensemble de données. Alors ici, notre système apprend en prédisant une valeur qui lui est propre. Ensuite, il effectue un contrôle de précision en utilisant une fonction de coût pour vérifier à quel point sa prédiction était proche de la sortie réelle.
Apprentissage non supervisé: Dans cette approche, nous avons peu ou pas de connaissances sur ce que serait notre résultat. Donc, à la place, nous dérivons la structure des données où nous ne savons pas l'effet de la variable. Nous faisons la structure en regroupant les données en fonction de la relation entre la variable dans les données. Ici, nous n'avons pas de retour basé sur notre prédiction.
Vous avez l'entrée x et une sortie cible t. Vous entraînez donc l'algorithme à généraliser aux parties manquantes. Il est supervisé car l'objectif est donné. Vous êtes le superviseur qui dit l'algorithme: pour l'exemple x, vous devez sortir t!
Bien que la segmentation, le clustering et la compression soient généralement pris en compte dans cette direction, j'ai du mal à en trouver une bonne définition.
Prenons l'exemple des auto-encodeurs pour la compression . Alors que vous n'avez que l'entrée x donnée, c'est l'ingénieur humain qui dit à l'algorithme que la cible est également x. Donc, dans un certain sens, ce n'est pas différent de l'apprentissage supervisé.
Et pour le clustering et la segmentation, je ne sais pas trop si cela correspond vraiment à la définition de l'apprentissage automatique (voir autre question ).
Apprentissage supervisé: vous avez étiqueté les données et devez en tirer des leçons. par exemple, les données de la maison avec le prix, puis apprendre à prédire le prix
Apprentissage non supervisé: vous devez trouver la tendance puis prédire, aucune étiquette préalable donnée. par exemple, différentes personnes dans la classe, puis une nouvelle personne vient donc à quel groupe appartient ce nouvel élève.
Dans l' apprentissage supervisé, nous savons ce que devraient être les entrées et les sorties. Par exemple, étant donné un ensemble de voitures. Nous devons trouver ceux qui sont rouges et ceux qui sont bleus.
Considérant que, l' apprentissage non supervisé est l'endroit où nous devons trouver la réponse avec très peu ou sans aucune idée de la façon dont la sortie devrait être. Par exemple, un apprenant pourrait être en mesure de construire un modèle qui détecte quand les gens sourient en se basant sur la corrélation des motifs faciaux et des mots tels que "de quoi souriez-vous?".
L'apprentissage supervisé peut étiqueter un nouvel élément dans l'une des étiquettes formées en fonction de l'apprentissage pendant la formation. Vous devez fournir un grand nombre d'ensembles de données de formation, d'ensembles de données de validation et d'ensembles de données de test. Si vous fournissez, par exemple, des vecteurs d'image pixel de chiffres avec des données d'apprentissage avec des étiquettes, il peut identifier les nombres.
L'apprentissage non supervisé ne nécessite pas de jeux de données de formation. Dans un apprentissage non supervisé, il peut regrouper des éléments en différents groupes en fonction de la différence entre les vecteurs d'entrée. Si vous fournissez des vecteurs d'image pixel de chiffres et lui demandez de les classer en 10 catégories, cela peut le faire. Mais il sait comment l'étiqueter car vous n'avez pas fourni d'étiquettes de formation.
L'apprentissage supervisé est essentiellement l'endroit où vous avez des variables d'entrée (x) et de sortie (y) et utilisez l'algorithme pour apprendre la fonction de mappage de l'entrée à la sortie. La raison pour laquelle nous avons appelé cela supervisé est que l'algorithme apprend à partir de l'ensemble de données d'apprentissage, l'algorithme fait des prédictions itérativement sur les données d'apprentissage. Supervisé ont deux types de classification et de régression. La classification est lorsque la variable de sortie est une catégorie comme oui / non, vrai / faux. La régression est lorsque la sortie est des valeurs réelles comme la hauteur de la personne, la température, etc.
L'apprentissage supervisé par l'ONU est l'endroit où nous n'avons que des données d'entrée (X) et aucune variable de sortie. C'est ce qu'on appelle un apprentissage non supervisé car contrairement à l'apprentissage supervisé ci-dessus, il n'y a pas de bonnes réponses et il n'y a pas d'enseignant. Les algorithmes sont laissés à eux-mêmes pour découvrir et présenter la structure intéressante des données.
Les types d'apprentissage non supervisé sont le clustering et l'association.
L'apprentissage supervisé est essentiellement une technique dans laquelle les données de formation à partir desquelles la machine apprend sont déjà étiquetées, c'est-à-dire un classificateur simple et impair où vous avez déjà classé les données pendant la formation. Par conséquent, il utilise des données "LABELED".
L'apprentissage non supervisé, au contraire, est une technique dans laquelle la machine par elle-même étiquette les données. Ou vous pouvez dire que c'est le cas lorsque la machine apprend d'elle-même à partir de zéro.
Dans l' apprentissage supervisé simple , il s'agit d'un type de problème d'apprentissage automatique dans lequel nous avons des étiquettes et en utilisant ces étiquettes, nous implémentons un algorithme tel que la régression et la classification. Oui Non. et la régression est appliquée où mettre une valeur réelle telle une maison de prix
L'apprentissage non supervisé est un type de problème d'apprentissage automatique dans lequel nous n'avons pas d'étiquettes signifie que nous n'avons que des données, des données non structurées et que nous devons regrouper les données (regroupement de données) en utilisant divers algorithmes non supervisés
Apprentissage automatique supervisé
"Le processus d'un algorithme d'apprentissage à partir d'un ensemble de données d'apprentissage et de prédire la sortie."
Précision de la sortie prévue directement proportionnelle aux données d'entraînement (longueur)
L'apprentissage supervisé est l'endroit où vous avez des variables d'entrée (x) (ensemble de données d'apprentissage) et une variable de sortie (Y) (ensemble de données de test) et vous utilisez un algorithme pour apprendre la fonction de mappage de l'entrée à la sortie.
Y = f(X)
Types principaux:
Algorithmes:
Algorithmes de classification:
Neural Networks
Naïve Bayes classifiers
Fisher linear discriminant
KNN
Decision Tree
Super Vector Machines
Algorithmes prédictifs:
Nearest neighbor
Linear Regression,Multi Regression
Zone d'application:
Reconnaissance vocale
Prédire ou non le candidat RH sélectionné
Prédire le cours de bourse
Apprentissage supervisé :
Un algorithme d'apprentissage supervisé analyse les données d'apprentissage et produit une fonction déduite, qui peut être utilisée pour cartographier de nouveaux exemples.
Catégories de problèmes:
Régression: prédire les résultats dans une sortie continue => mapper les variables d'entrée à une fonction continue.
Exemple:
Étant donné l'image d'une personne, prédisez son âge
Classification: prédire les résultats dans une sortie discrète => mapper les variables d'entrée en catégories discrètes
Exemple:
Ce tumer est-il cancéreux?
Apprentissage non supervisé:
L'apprentissage non supervisé apprend à partir de données de test qui n'ont pas été étiquetées, classées ou catégorisées. L'apprentissage non supervisé identifie les points communs dans les données et réagit en fonction de la présence ou de l'absence de ces points communs dans chaque nouvelle donnée.
Nous pouvons dériver cette structure en regroupant les données en fonction des relations entre les variables dans les données.
Il n'y a aucune rétroaction basée sur les résultats de la prédiction.
Catégories de problèmes:
Clustering: est la tâche de regrouper un ensemble d'objets de telle manière que les objets d'un même groupe (appelé cluster) soient plus similaires (dans un certain sens) les uns aux autres qu'à ceux des autres groupes (clusters)
Exemple:
Prenez une collection de 1.000.000 gènes différents, et trouver un moyen de regrouper automatiquement ces gènes dans des groupes qui sont en quelque sorte similaires ou connexes par différentes variables, telles que la durée de vie, le lieu, les rôles, etc. .
Les cas d'utilisation populaires sont répertoriés ici.
Différence entre la classification et le clustering dans l'exploration de données?
Références:
Enseignement supervisé
Apprentissage non supervisé
Exemple:
Enseignement supervisé:
Un sac avec orange
=> modèle de construction
Un sac mélangé de pomme et d'orange.
=> Veuillez classer
Apprentissage non supervisé:
Un sac mélangé de pomme et d'orange.
=> modèle de construction
Un autre sac mixte
=> Veuillez classer
En termes simples .. :) C'est ma compréhension, n'hésitez pas à corriger. L'apprentissage supervisé est, nous savons ce que nous prévoyons sur la base des données fournies. Nous avons donc une colonne dans l'ensemble de données qui doit être prédite. L'apprentissage non supervisé est, nous essayons d'extraire du sens de l'ensemble de données fourni. Nous n'avons pas de clarté sur ce qui doit être prévu. La question est donc pourquoi nous faisons cela? .. :) La réponse est - le résultat de l'apprentissage non supervisé est des groupes / grappes (données similaires ensemble). Donc, si nous recevons de nouvelles données, nous les associons au cluster / groupe identifié et comprenons ses caractéristiques.
J'espère que cela vous aidera.
enseignement supervisé
l'apprentissage supervisé est l'endroit où nous connaissons la sortie de l'entrée brute, c'est-à-dire que les données sont étiquetées de sorte que pendant la formation du modèle d'apprentissage automatique, il comprendra ce qu'il doit détecter dans la sortie de donner et guidera le système pendant la formation pour détecter les objets pré-étiquetés sur cette base, il détectera les objets similaires que nous avons fournis lors de la formation.
Ici, les algorithmes sauront quelle est la structure et le modèle des données. L'apprentissage supervisé est utilisé pour la classification
Par exemple, nous pouvons avoir différents objets dont les formes sont carrées, circulaires, trianle notre tâche est d'organiser les mêmes types de formes que l'ensemble de données étiqueté a toutes les formes étiquetées, et nous formerons le modèle d'apprentissage automatique sur cet ensemble de données, sur sur la base de la date de formation, il commencera à détecter les formes.
Apprentissage non supervisé
L'apprentissage non supervisé est un apprentissage non guidé dont le résultat final n'est pas connu, il regroupera l'ensemble de données et, en fonction des propriétés similaires de l'objet, il divisera les objets sur différents groupes et détectera les objets.
Ici, les algorithmes rechercheront les différents modèles dans les données brutes, et sur cette base, ils regrouperont les données. L'apprentissage non supervisé est utilisé pour le clustering.
Par exemple, nous pouvons avoir différents objets de formes multiples carré, cercle, triangle, donc il fera les grappes en fonction des propriétés de l'objet, si un objet a quatre côtés, il le considérera carré, et s'il a trois côtés triangle et s'il n'y a pas de côtés que le cercle, ici les données ne sont pas étiquetées, elles apprendront elles-mêmes à détecter les différentes formes
L'apprentissage automatique est un domaine où vous essayez de fabriquer des machines pour imiter le comportement humain.
Vous entraînez la machine comme un bébé.La façon dont les humains apprennent, identifient les caractéristiques, reconnaissent les modèles et s'entraînent, de la même manière que vous entraînez la machine en alimentant les données avec diverses fonctionnalités. L'algorithme machine identifie le modèle dans les données et le classe dans une catégorie particulière.
L'apprentissage automatique est largement divisé en deux catégories, l'apprentissage supervisé et non supervisé.
L'apprentissage supervisé est le concept où vous avez des vecteurs / données d'entrée avec une valeur cible correspondante (sortie) .En revanche, l'apprentissage non supervisé est le concept où vous n'avez que des vecteurs / données d'entrée sans aucune valeur cible correspondante.
Un exemple d'apprentissage supervisé est la reconnaissance des chiffres manuscrits où vous avez l'image des chiffres avec le chiffre correspondant [0-9], et un exemple d'apprentissage non supervisé regroupe les clients par comportement d'achat.