Essentiellement, ma question est que dans les Perceptrons multicouches, les perceptrons sont utilisés avec une fonction d'activation sigmoïde. Alors que dans la règle de mise à jour y est calculée comme suit
En quoi ce Perceptron "sigmoïde" diffère-t-il alors d'une régression logistique?
Je dis qu'un perceptron sigmoïde mono-couche est équivalente à une régression logistique dans la mesure où une utilisation y = 1 dans la règle de mise à jour. En outre,foisretourdans la prédiction. Cependant, dans les perceptrons multicouches, la fonction d'activation sigmoïde est utilisée pour renvoyer une probabilité, pas un signal d'activation contrairement à la régression logistique et un perceptron monocouche.
Je pense que l'utilisation du terme "Perceptron" peut être un peu ambiguë, alors permettez-moi de fournir quelques informations sur la base de ma compréhension actuelle des perceptrons monocouche:
Règle de perceptron classique
Tout d'abord, le perceptron classique de F. Rosenblatt où nous avons une fonction de pas:
pour mettre à jour les poids
Alors que y est calculé comme
Descente graduelle
En utilisant la descente de gradient, nous optimisons (minimisons) la fonction de coût
où nous avons des nombres "réels", donc je vois cela essentiellement analogue à la régression linéaire avec la différence que notre sortie de classification est seuillée.
Ici, nous faisons un pas dans la direction négative du gradient lorsque nous mettons à jour les poids
Mais ici, nous avons y = w T x i au lieu de y = signe ( w T x i )
De plus, nous calculons la somme des erreurs quadratiques pour un passage complet sur l'ensemble des données d'entraînement (en mode d'apprentissage par lots) contrairement à la règle classique du perceptron qui met à jour les poids à mesure que de nouveaux échantillons d'apprentissage arrivent (analogue à la descente de gradient stochastique - en ligne apprentissage).
Fonction d'activation sigmoïde
Maintenant, voici ma question:
Dans les Perceptrons multicouches, les perceptrons sont utilisés avec une fonction d'activation sigmoïde. Alors que dans la règle de mise à jour y est calculée comme suit
En quoi ce Perceptron "sigmoïde" diffère-t-il alors d'une régression logistique?