Comment pouvons-nous expliquer la différence entre la régression logistique et le réseau de neurones à un public qui n'a pas de formation en statistiques?
Comment pouvons-nous expliquer la différence entre la régression logistique et le réseau de neurones à un public qui n'a pas de formation en statistiques?
Réponses:
Je suppose que vous pensez à ce qui était et peut-être sont-ils encore appelés «perceptrons multicouches» dans votre question sur les réseaux de neurones. Si c'est le cas, j'expliquerais tout en termes de flexibilité concernant la forme de la limite de décision en fonction de variables explicatives. En particulier, pour ce public, je ne mentionnerais pas les fonctions de lien / les cotes de journalisation, etc. Il suffit de garder l’idée que la probabilité d’un événement est prédite sur la base de certaines observations.
Voici une séquence possible:
Les avantages de cette approche sont que vous n’avez pas à entrer vraiment dans les détails mathématiques pour donner la bonne idée. En fait, ils ne doivent pas comprendre la régression logistique ni les réseaux de neurones pour comprendre les similitudes et les différences.
L'inconvénient de cette approche est qu'il faut faire beaucoup de photos et résister fermement à la tentation de tomber dans l'algèbre pour expliquer les choses.
Pour un résumé plus simple:
Régression logistique: la forme la plus simple de réseau de neurones, qui résulte en des limites de décision qui sont une ligne droite
Réseaux de neurones: un sur-ensemble comprenant une régression logistique et d'autres classificateurs pouvant générer des limites de décision plus complexes.
(note: je parle d'une régression logistique "simple", sans l'aide de noyaux intégraux)
(référence: deeplearning.ai courses de Andrew Ng, "Régression logistique en tant que réseau de neurones" et "Classification de données planaires avec une couche cachée")
Je vais prendre la question à la lettre: quelqu'un qui n'a aucune expérience en statistiques. Et je ne vais pas essayer de donner à cette personne une formation en statistiques. Par exemple, supposons que vous deviez expliquer la différence au PDG d'une entreprise ou quelque chose du genre.
Donc: La régression logistique est un outil pour modéliser une variable catégorielle en termes d’autres variables. Il vous donne des moyens de savoir comment les changements dans chacune des "autres" variables affectent les probabilités de résultats différents dans la première variable. La sortie est assez facile à interpréter.
Les réseaux de neurones sont un ensemble de méthodes permettant à un ordinateur d'essayer de tirer des exemples d'une manière qui ressemble vaguement à la manière dont les humains se familiarisent avec certaines choses. Il en résulte que les modèles sont de bons prédicteurs, mais ils sont généralement beaucoup plus opaques que ceux de la régression logistique.
On m'a enseigné que les réseaux de neurones (avec des fonctions d'activation logistique) peuvent être considérés comme une moyenne pondérée des fonctions logit, avec les poids eux-mêmes estimés. En choisissant un grand nombre de logits, vous pouvez adapter n'importe quel formulaire fonctionnel. Il y a quelques intuitions graphiques dans l' article de blog de Econometric Sense .
Les autres réponses sont géniales. J'ajouterais simplement quelques images montrant que vous pouvez penser à la régression logistique et à la régression logistique multi-classes (maxent, régression logistique multinomiale, régression softmax, classificateur à entropie maximale) comme une architecture particulière de réseaux de neurones.
De Sebastian Raschka, Université d'État du Michigan, sur KDnuggets :
Quelques illustrations supplémentaires pour la régression logistique multi-classes:
Une illustration similaire tirée de http://www.deeplearningbook.org/ chapitre 1:
Et un autre tutoriel de TensorFlow :
Par exemple, dans Caffe , vous devez implémenter la régression logistique comme suit :
Je prendrais comme exemple un problème complexe mais concret que le public comprend. Utilisez des nœuds cachés dont les interprétations ne sont pas entraînées, mais ont une signification particulière.
Si vous utilisez des positions d'échecs (prédire si les Blancs vont gagner), vous pouvez laisser les entrées être une représentation du tableau (ignorez si vous pouvez faire un château ou une capture en passant, ou même à qui appartient ce déplacement), par exemple des entrées binaires indiquant s'il y a une pièce de chaque type sur chaque carré.
La régression linéaire détermine à quel point il est bon d'avoir un chevalier blanc sur h4. Ce n'est peut-être pas évident du tout que ce soit bon, mais s'il est sur h4, il n'a pas été capturé, ce qui l'emporte probablement sur d'autres considérations. La régression linéaire récupère probablement les valeurs approximatives des pièces, et qu'il est préférable de placer vos pièces au centre du tableau et du côté de votre adversaire. La régression linéaire ne permet pas d’évaluer les combinaisons. Par exemple, votre reine sur b2 prend soudainement plus de valeur si le roi adverse est sur a1.
Un réseau de neurones peut avoir des nœuds cachés pour des concepts tels que "avantage matériel", "sécurité du roi noir", "contrôle du centre", "les deux tours sur le fichier D", "pion de la reine isolée isolée" ou "évêque mobilité." Certaines d'entre elles peuvent être estimées uniquement à partir des entrées de la carte, tandis que d'autres doivent être placées dans une seconde couche cachée ou plus tard. Le réseau de neurones peut les utiliser comme entrées dans l’évaluation finale de la position. Ces concepts aident un expert à évaluer une position. Un réseau de neurones devrait donc pouvoir effectuer des évaluations plus précises qu'une régression linéaire. Cependant, la création du réseau de neurones nécessite plus de travail, car vous devez choisir sa structure et disposer de nombreux paramètres supplémentaires.