L'erreur quadratique moyenne est-elle toujours convexe dans le contexte des réseaux de neurones?


9

Plusieurs ressources que j'ai mentionnées mentionnent que MSE est génial parce qu'il est convexe. Mais je ne sais pas comment, surtout dans le contexte des réseaux de neurones.

Disons que nous avons les éléments suivants:

  • X : ensemble de données de formation
  • Oui : cibles
  • Θ : l'ensemble des paramètres du modèle (un modèle de réseau neuronal avec des non-linéarités)FΘ

Alors:

MSE(Θ)=(FΘ(X)-Oui)2

Pourquoi cette fonction de perte serait-elle toujours convexe? Cela dépend-il de ?FΘ(X)

Réponses:


1

Réponse en bref: MSE est convexe sur son entrée et ses paramètres par lui-même. Mais sur un réseau neuronal arbitraire, il n'est pas toujours convexe du fait de la présence de non-linéarités sous forme de fonctions d'activation. La source de ma réponse est ici .


1

Convexité

Une fonction F(X) avec XΧ est convexe, si pour tout X1Χ , X2Χ et pour tout , 0λ1

F(λX1+(1-λ)X2)λF(X1)+(1-λ)F(X2).

Il peut être prouvé qu'un tel convexe F(X) a un minimum global. Un minimum global unique élimine les pièges créés par les minima locaux qui peuvent se produire dans les algorithmes qui tentent de réaliser la convergence sur un minimum global, comme la minimisation d'une fonction d'erreur.

Bien qu'une fonction d'erreur puisse être fiable à 100% dans tous les contextes linéaires continus et dans de nombreux contextes non linéaires, elle ne signifie pas la convergence sur un minimum global pour tous les contextes non linéaires possibles.

Erreur quadratique moyenne

Étant donné une fonction s(X) décrivant le comportement idéal du système et un modèle du système une(X,p) (où p est le vecteur de paramètre, la matrice, le cube ou l'hypercube et 1nN ), créé rationnellement ou via la convergence (comme dans la formation de réseau neuronal), la fonction d'erreur quadratique moyenne (MSE) peut être représentée comme suit.

e(β): =N-1n[une(Xn)-s(Xn)]2

Le matériel que vous lisez ne prétend probablement pas que une(X,p) ou s(X) sont convexes par rapport à X , mais que e(β) est convexe par rapport à une(X,p) et s(X) peu importe ce qu'ils sont. Cette dernière déclaration peut être prouvée pour tout une(X,p) et s(X) continus .

Confondre l'algorithme de convergence

Si la question est de savoir si un une(X,p) et une méthode spécifiques pour atteindre un s(X) qui se rapproche de l' une(X,p) dans une marge de convergence MSE raisonnable peuvent être confondus, la réponse est «oui». C'est pourquoi MSE n'est pas le seul modèle d'erreur.

Sommaire

La meilleure façon de résumer est que e(β) doit être défini ou choisi parmi un ensemble de modèles d'erreur convexe stock basé sur les connaissances suivantes.

  • Propriétés connues du système s(X)
  • une(X,p)
  • Tenseur utilisé pour générer l'état suivant dans la séquence convergente

L'ensemble des modèles d'erreur convexe d'origine inclut certainement le modèle MSE en raison de sa simplicité et de son économie de calcul.


Donc, la réponse courte est que MSE par rapport à Thêta est toujours convexe. Bien que Feedforard (X, Theta) qui pourrait être non convexe?
user74211

Eh bien, @ user74211, ce commentaire ne répond pas réellement à la question. La question posée spécifiquement COMMENT l'erreur quadratique moyenne peut toujours être convexe si la fonction à laquelle elle s'applique ne l'est pas. Votre commentaire est un sous-ensemble des déclarations de la question, sans l'explication recherchée.
FauChristian
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.