Quelle est la différence entre la régression logistique et les réseaux de neurones?


32

Comment pouvons-nous expliquer la différence entre la régression logistique et le réseau de neurones à un public qui n'a pas de formation en statistiques?


7
Est-ce que quelqu'un qui n'a aucune formation en statistiques veut vraiment savoir? Et qu'est-ce qui constituerait une explication acceptable de la différence? Peut-être une métaphore. Certainement pas aucune des réponses ci-dessous (à ce jour), qui ne remplissent toutes absolument pas l'exigence "pas de contexte".
rolando2

3
Q: "Comment pouvons-nous expliquer la différence entre la régression logistique et le réseau de neurones à un public qui n’a aucune formation en statistiques?" R: Vous devez d’abord leur expliquer les statistiques.
Firebug

2
Je ne vois aucune raison pour que cela ne reste pas ouvert. Nous n'avons pas besoin de prendre "expliquer ... pas de formation en statistiques" de manière littérale. Il est courant de demander des explications qui fonctionneraient pour «un enfant de 5 ans» ou «votre grand-mère». Ce ne sont que des moyens familiers de demander des réponses techniques (ou du moins moins ) techniques. Pour le dire plus explicitement, les réponses cherchent toujours à satisfaire plusieurs contraintes simultanément, telles que la précision et la brièveté; nous ajoutons ici de minimiser sa technicité. Il n'y a aucune raison pour que nous ayons une question demandant une explication moins technique de la différence b / t LR & ANN.
Gay - Rétablir Monica

2
@mbq Il est amusant de noter qu'en novembre 2012, il était possible de décrire les réseaux de neurones comme étant obsolètes.
littleO

2
@ LittleTo Cela reste à peu près toujours; Si vous comparez NNs'18 à NNs'12, vous constaterez que la suppression des similarités avec les réseaux et les neurones réels a permis de progresser plus rapidement et d'aller plus loin dans des ensembles d'opérations algébriques avec optimisation stochastique. Mais bien sûr, apparemment, la marque NN s’est révélée si puissante qu’elle vivra longtemps et prospérera, quelle que soit sa signification.

Réponses:


27

Je suppose que vous pensez à ce qui était et peut-être sont-ils encore appelés «perceptrons multicouches» dans votre question sur les réseaux de neurones. Si c'est le cas, j'expliquerais tout en termes de flexibilité concernant la forme de la limite de décision en fonction de variables explicatives. En particulier, pour ce public, je ne mentionnerais pas les fonctions de lien / les cotes de journalisation, etc. Il suffit de garder l’idée que la probabilité d’un événement est prédite sur la base de certaines observations.

Voici une séquence possible:

  • Assurez-vous qu'ils savent ce qu'est une probabilité prédite, conceptuellement. Affichez-le en fonction d' une variable dans le contexte de données familières. Expliquez le contexte de décision qui sera partagé par la régression logistique et les réseaux de neurones.
  • Commencez par la régression logistique. Indiquez qu'il s'agit du cas linéaire mais que vous montrez la linéarité de la limite de décision résultante à l'aide d'un diagramme de chaleur ou de contour des probabilités de sortie avec deux variables explicatives.
  • Notez que deux classes peuvent ne pas être bien séparées par la limite qu'elles voient et motiver un modèle plus flexible pour créer une limite plus courbée. Si nécessaire, montrez des données qui seraient bien distinguées de cette façon. (C'est pourquoi vous commencez avec 2 variables)
  • Notez que vous pouvez commencer à compliquer le modèle linéaire d'origine avec des termes supplémentaires, tels que des carrés ou d'autres transformations, et éventuellement afficher les limites qu'elles génèrent.
  • Mais ensuite, jetez-les en constatant que vous ne savez pas à l’avance quelle devrait être la forme de la fonction et que vous préféreriez l’apprendre à partir des données. Au moment même où ils s'enthousiasment, notez son impossibilité en toute généralité et suggérez que vous êtes heureux de supposer qu'il devrait au moins être «lisse» plutôt que «agité», mais autrement déterminé par les données. (Affirmez qu'ils pensaient probablement déjà à des frontières lisses, de la même manière qu'ils avaient parlé en prose toute leur vie).
  • Affichez la sortie d'un modèle additif généralisé dans lequel la probabilité de sortie est une fonction conjointe de la paire de variables d'origine plutôt qu'une véritable combinaison additive - ceci uniquement à des fins de démonstration. Surtout, appelez cela plus lisse parce que c'est gentil et général et décrit les choses de manière intuitive. Démontrez la limite de décision non linéaire dans l'image comme précédemment.
  • Notez que ce lisseur (actuellement anonyme) a un paramètre de lissage qui contrôle son lissage, référez-vous en le considérant comme une croyance antérieure sur le lissage de la fonction transformant les variables explicatives en probabilité prédite. Peut-être montrer les conséquences de différents réglages de finesse sur la limite de décision.
  • Introduisez maintenant le réseau neuronal sous forme de diagramme. Indiquez que la deuxième couche n'est qu'un modèle de régression logistique, mais indiquez également la transformation non linéaire qui se produit dans les unités masquées. Rappelez au public qu'il ne s'agit que d'une autre fonction d'entrée à sortie qui sera non linéaire dans sa limite de décision.
  • Notez qu’il a beaucoup de paramètres et que certains d’entre eux doivent être contraints de prendre une décision délicate - réintroduisez l’idée d’un nombre qui contrôle le lissage comme le même nombre (conceptuellement parlant) qui maintient les paramètres liés entre eux valeurs extrêmes. Notez également que plus il y a d'unités cachées, plus il peut réaliser différents types de formes fonctionnelles. Pour maintenir l’intuition, discutez des unités cachées en termes de flexibilité et de contrainte de paramètre en termes de finesse (malgré la négligence mathématique de cette caractérisation).
  • Puis surprenez-les en affirmant que vous ne connaissez toujours pas la forme fonctionnelle, vous voulez donc être infiniment flexible en ajoutant un nombre infini d'unités cachées. Laissez l'impossibilité pratique de cet évier dans un peu. Puis observez que cette limite peut être prise dans les mathématiques et demandez (de façon rhétorique) à quoi une telle chose ressemblerait.
  • Répondez que ce serait encore plus doux (un processus gaussien, comme il se passe; Neal, 1996, mais ce détail n’a pas d’importance), comme celui qu’ils ont vu auparavant. Notez qu’il existe à nouveau une quantité qui contrôle le lissage mais aucun autre paramètre particulier (sortie intégrée, pour ceux qui s’intéressent à ce genre de choses).
  • Conclure que les réseaux de neurones sont des implémentations particulières, implicitement limitées, de lisseurs ordinaires, qui sont des extensions non linéaires, pas nécessairement additives, du modèle de régression logistique. Ensuite, faites l'inverse, en concluant que la régression logistique est équivalente à un modèle de réseau neuronal ou à un lissage avec le paramètre de lissage défini sur "extra extra lisse", à savoir linéaire.

Les avantages de cette approche sont que vous n’avez pas à entrer vraiment dans les détails mathématiques pour donner la bonne idée. En fait, ils ne doivent pas comprendre la régression logistique ni les réseaux de neurones pour comprendre les similitudes et les différences.

L'inconvénient de cette approche est qu'il faut faire beaucoup de photos et résister fermement à la tentation de tomber dans l'algèbre pour expliquer les choses.


14

Pour un résumé plus simple:

Régression logistique: la forme la plus simple de réseau de neurones, qui résulte en des limites de décision qui sont une ligne droite

entrez la description de l'image ici

Réseaux de neurones: un sur-ensemble comprenant une régression logistique et d'autres classificateurs pouvant générer des limites de décision plus complexes.

entrez la description de l'image ici

(note: je parle d'une régression logistique "simple", sans l'aide de noyaux intégraux)

(référence: deeplearning.ai courses de Andrew Ng, "Régression logistique en tant que réseau de neurones" et "Classification de données planaires avec une couche cachée")


1
De toutes les réponses actuelles, j’estime que c’est le moyen le plus réaliste d’expliquer les concepts à une personne sans connaissances statistiques.
Firebug

1
Ainsi, un classificateur de régression logistique logistique EST-IL un réseau de neurones? Cela a du sens.
Björn Lindqvist le

8

Je vais prendre la question à la lettre: quelqu'un qui n'a aucune expérience en statistiques. Et je ne vais pas essayer de donner à cette personne une formation en statistiques. Par exemple, supposons que vous deviez expliquer la différence au PDG d'une entreprise ou quelque chose du genre.

Donc: La régression logistique est un outil pour modéliser une variable catégorielle en termes d’autres variables. Il vous donne des moyens de savoir comment les changements dans chacune des "autres" variables affectent les probabilités de résultats différents dans la première variable. La sortie est assez facile à interpréter.

Les réseaux de neurones sont un ensemble de méthodes permettant à un ordinateur d'essayer de tirer des exemples d'une manière qui ressemble vaguement à la manière dont les humains se familiarisent avec certaines choses. Il en résulte que les modèles sont de bons prédicteurs, mais ils sont généralement beaucoup plus opaques que ceux de la régression logistique.


5
+1 Il s'agit d'un bon effort initial pour relever le défi initial consistant à fournir une explication pouvant être comprise par un profane, tout en restant raisonnablement claire et précise.
whuber

2
Vous devrez expliquer ce que sont "catégoriques", "variables", "cotes". De plus, les réseaux de neurones artificiels sont simplement inspirés par de vrais réseaux de neurones. Notre cerveau ne peut pas apprendre par propagation arrière, à notre connaissance. Alors oui, c'est surtout un terme cool pour un concept relativement simplifié. En outre, la régression logistique est une forme de réseau de neurones, donc il en est de même.
Firebug

7

On m'a enseigné que les réseaux de neurones (avec des fonctions d'activation logistique) peuvent être considérés comme une moyenne pondérée des fonctions logit, avec les poids eux-mêmes estimés. En choisissant un grand nombre de logits, vous pouvez adapter n'importe quel formulaire fonctionnel. Il y a quelques intuitions graphiques dans l' article de blog de Econometric Sense .


6

Les autres réponses sont géniales. J'ajouterais simplement quelques images montrant que vous pouvez penser à la régression logistique et à la régression logistique multi-classes (maxent, régression logistique multinomiale, régression softmax, classificateur à entropie maximale) comme une architecture particulière de réseaux de neurones.

De Sebastian Raschka, Université d'État du Michigan, sur KDnuggets :

entrez la description de l'image ici


Quelques illustrations supplémentaires pour la régression logistique multi-classes:

entrez la description de l'image ici

Une illustration similaire tirée de http://www.deeplearningbook.org/ chapitre 1:

entrez la description de l'image ici

Et un autre tutoriel de TensorFlow :

entrez la description de l'image ici

Par exemple, dans Caffe , vous devez implémenter la régression logistique comme suit :

entrez la description de l'image ici


2
Alors, la rétrodiffusion sur un tel réseau de neurones calcule-t-elle les mêmes poids que la régression logistique?
Mitch

1
@ Mitch - il se peut que je sois trop en retard pour contribuer. Une différence essentielle est que, pour une régression logistique, on utilise le fichier pour obtenir les coefficients. C'est essentiellement le choix d'une fonction d'erreur ou de perte spécifique. Pour un réseau neuronal, la fonction de perte est l’un des choix. Donc, avec la perte correcte fn (je pense tout de suite que c’est la norme L ^ 2), c’est le cas.
Aginensky

Ainsi, la régression logistique peut être formulée exactement comme ADALINE (réseau de neurones monocouche qui utilise la descente par gradient / batch / stochastique), les seules différences clés étant que la fonction d’activation est modifiée en sigmoïde au lieu de linéaire, et que la fonction de prédiction passe à> = 0,5 avec 0,1 étiquettes au lieu de> = 0 avec -1,1 étiquettes. Une autre différence fortement préférée, mais facultative, consiste à modifier la fonction de coût de RSS à une fonction de coût logistique, car l'activation du sigmoïde rend RSS non convexe, ce qui permet à RSS de rester bloqué dans les minimas locaux.
Austin

5

Je prendrais comme exemple un problème complexe mais concret que le public comprend. Utilisez des nœuds cachés dont les interprétations ne sont pas entraînées, mais ont une signification particulière.

Si vous utilisez des positions d'échecs (prédire si les Blancs vont gagner), vous pouvez laisser les entrées être une représentation du tableau (ignorez si vous pouvez faire un château ou une capture en passant, ou même à qui appartient ce déplacement), par exemple 64×12 des entrées binaires indiquant s'il y a une pièce de chaque type sur chaque carré.

La régression linéaire détermine à quel point il est bon d'avoir un chevalier blanc sur h4. Ce n'est peut-être pas évident du tout que ce soit bon, mais s'il est sur h4, il n'a pas été capturé, ce qui l'emporte probablement sur d'autres considérations. La régression linéaire récupère probablement les valeurs approximatives des pièces, et qu'il est préférable de placer vos pièces au centre du tableau et du côté de votre adversaire. La régression linéaire ne permet pas d’évaluer les combinaisons. Par exemple, votre reine sur b2 prend soudainement plus de valeur si le roi adverse est sur a1.

Un réseau de neurones peut avoir des nœuds cachés pour des concepts tels que "avantage matériel", "sécurité du roi noir", "contrôle du centre", "les deux tours sur le fichier D", "pion de la reine isolée isolée" ou "évêque mobilité." Certaines d'entre elles peuvent être estimées uniquement à partir des entrées de la carte, tandis que d'autres doivent être placées dans une seconde couche cachée ou plus tard. Le réseau de neurones peut les utiliser comme entrées dans l’évaluation finale de la position. Ces concepts aident un expert à évaluer une position. Un réseau de neurones devrait donc pouvoir effectuer des évaluations plus précises qu'une régression linéaire. Cependant, la création du réseau de neurones nécessite plus de travail, car vous devez choisir sa structure et disposer de nombreux paramètres supplémentaires.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.