Qu'est-ce que la minimisation d'énergie dans l'apprentissage automatique?

Je lisais sur l'optimisation d'un problème mal posé en vision par ordinateur et suis tombé sur l'explication ci-dessous à propos de l'optimisation sur Wikipedia. Ce que je ne comprends pas, c'est pourquoi appellent-ils cette optimisation " minimisation d'énergie " dans la vision par ordinateur?

Un problème d'optimisation peut être représenté de la manière suivante:

Étant donné: une fonction $f: A \to R$ d'un ensemble $A$ aux nombres réels

Recherché: un élément $x_0$ dans $A$ tel que $f(x_0) ≤ f(x)$ pour tout $x$ dans $A$ ("minimisation") ou tel que $f(x_0) ≥ f(x)$ pour tout $x$ dans $A$ (" maximisation").

Une telle formulation est appelée un problème d'optimisation ou un problème de programmation mathématique (un terme non directement lié à la programmation informatique, mais toujours utilisé par exemple en programmation linéaire - voir Histoire ci-dessous). De nombreux problèmes réels et théoriques peuvent être modélisés dans ce cadre général. Les problèmes formulés à l'aide de cette technique dans les domaines de la physique et de la vision par ordinateur peuvent désigner la technique comme une minimisation d'énergie, en parlant de la valeur de la fonction comme représentant l'énergie du système modélisé. $f$

machine-learning optimization computer-vision

— iamprem
source

Réponses:

Les modèles basés sur l'énergie sont un cadre unifié pour représenter de nombreux algorithmes d'apprentissage automatique. Ils interprètent l'inférence comme minimisant une fonction énergétique et l'apprentissage comme minimisant une fonction de perte.

La fonction énergie est fonction de la configuration des variables latentes et de la configuration des entrées fournies dans un exemple. L'inférence signifie généralement trouver une configuration à faible énergie, ou échantillonner à partir de la configuration possible de sorte que la probabilité de choisir une configuration donnée soit une distribution de Gibbs.

La fonction de perte est fonction des paramètres du modèle à partir de nombreux exemples. Par exemple, dans un problème d'apprentissage supervisé, votre perte est l'erreur totale sur les cibles. On l'appelle parfois «fonctionnelle» car c'est une fonction de la fonction (paramétrisée) qui constitue le modèle.

Papier principal:

Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato et FJ Huang, «A tutorial on energy-based learning», in Predicting Structured Data, MIT Press, 2006.

Regarde aussi:

LeCun, Y. et Huang, FJ (2005). Fonctions de perte pour la formation discriminatoire des modèles à base d'énergie. Dans les actes du 10e atelier international sur l'intelligence artificielle et les statistiques (AIStats'05). Récupéré de http://yann.lecun.com/exdb/publis/pdf/lecun-huang-05.pdf

Ranzato, M., Boureau, Y.-L., Chopra, S., et LeCun, Y. (2007). Un cadre énergétique unifié pour l'apprentissage non supervisé. Proc. Conférence sur l'IA et les statistiques (AI-Stats). Récupéré de http://dblp.uni-trier.de/db/journals/jmlr/jmlrp2.html#RanzatoBCL07

— Neil G
source

Pouvez-vous développer ce que "Ils interprètent l'inférence comme minimisant une fonction énergétique et l'apprentissage comme minimisant une fonction de perte"? En quoi une fonction d'énergie est-elle différente d'une fonction de perte?

— Cliff AB

Pourriez-vous s'il vous plaît élaborer votre réponse

— iamprem

@CliffAB J'espère que c'est plus clair?

— Neil G

@NeilG: pour être honnête, je suis encore un peu confus. Pour moi, il semble que la "fonction énergétique" soit essentiellement la même chose que la fonction de vraisemblance en statistique. Est-ce une interprétation raisonnable ou manque-t-il quelque chose de plus subtil?

— Cliff AB

@CliffAB: La fonction d'énergie peut être la log-vraisemblance auquel cas l'énergie exponentiée totale est une. Cependant, ce n'est même pas nécessaire: les modèles non probabilistes basés sur l'énergie ne se soucient pas de cette normalisation, ce qui peut rendre leur apprentissage plus efficace que les modèles probabilistes. En effet, cela évite d'évaluer des intégrales coûteuses sur l'espace de configuration.

— Neil G

Dans la littérature sur la détection de signaux, l'énergie d'un signal $x_t$ est définie comme

E = Σ x_{t}^{2}

$E = \Sigma x_t^2$

Lorsque prédire une réponse y de quelques fonctionnalités x, un moyen très courant et simple de procéder est de minimiser la somme des erreurs au carré

S S E = Σ (y - \hat{y})^{2}

$SSE= \Sigma (y-\hat{y})^2$ où

est la réponse ajustée. Remarquez la similitude? L'ESS est l'énergie. Cette énergie est minimisée par les paramètres ajustés.

\hat{y}

$\hat{y}$

— Stan
source

Je pense que vous confondez la perte avec l'énergie

— Neil G

J'utilise la définition standard de l'énergie provenant du traitement du signal . Les gens en informatique / apprentissage automatique ont tendance à redéfinir les termes, je suppose. Je viens du milieu des statistiques et du traitement du signal

— stan

Votre première formule est une fonction énergétique. La deuxième formule est la fonction de perte car ce n'est pas une fonction de la configuration.

— Neil G

@Neil Je suis sûr que vous utilisez correctement la terminologie définie dans les articles que vous avez cités. C'est juste une terminologie différente de ce que j'ai l'habitude de dire où l' ESS est de l'énergie

— stan