Avantages d'aborder un problème en formulant une fonction de coût globalement optimisable

C'est une question assez générale (c'est-à-dire pas nécessairement spécifique aux statistiques), mais j'ai remarqué une tendance dans l'apprentissage automatique et la littérature statistique où les auteurs préfèrent suivre l'approche suivante:

Approche 1 : obtenir une solution à un problème pratique en formulant une fonction de coût pour laquelle il est possible (par exemple d'un point de vue informatique) de trouver une solution globalement optimale (par exemple en formulant une fonction de coût convexe).

plutôt que:

Approche 2 : obtenir une solution au même problème en formulant une fonction de coût pour laquelle nous ne pourrons peut-être pas obtenir une solution globalement optimale (par exemple, nous ne pouvons obtenir qu'une solution localement optimale pour cela).

Notez que rigoureusement parlant, les deux problèmes sont différents; l'hypothèse est que nous pouvons trouver la solution globalement optimale pour la première, mais pas pour la seconde.

Hormis d'autres considérations (vitesse, facilité de mise en œuvre, etc.), je recherche:

Une explication de cette tendance (par exemple, des arguments mathématiques ou historiques)
Avantages (pratiques et / ou théoriques) de suivre l'approche 1 au lieu de 2 lors de la résolution d'un problème pratique.

optimization function

— Amelio Vazquez-Reina
source

Réponses:

Je crois que l'objectif devrait être d'optimiser la fonction qui vous intéresse. Si cela se trouve être le nombre de classifications erronées - et non une probabilité binomiale, disons - alors vous devriez essayer de minimiser le nombre de classifications erronées. Cependant, pour le nombre de raisons pratiques mentionnées (vitesse, mise en œuvre, instabilité, etc.), cela peut ne pas être si facile et même impossible. Dans ce cas, nous choisissons d'approximer la solution.

Je connais essentiellement deux stratégies d'approximation; soit nous proposons des algorithmes qui tentent d'approcher directement la solution du problème d'origine, soit nous reformulons le problème d'origine comme un problème plus directement résoluble (par exemple, les relaxations convexes).

Un argument mathématique pour préférer une approche à l'autre est de savoir si nous pouvons comprendre a) les propriétés de la solution réellement calculées et b) dans quelle mesure la solution se rapproche de la solution du problème qui nous intéresse réellement.

Je connais de nombreux résultats en statistiques où l'on peut prouver les propriétés d'une solution à un problème d'optimisation. Il me semble plus difficile d'analyser la solution d'un algorithme, où vous n'avez pas de formulation mathématique de ce qu'il calcule (par exemple qu'il résout un problème d'optimisation donné). Je ne dirai certainement pas que vous ne pouvez pas, mais cela semble être un avantage théorique , si vous pouvez donner une formulation mathématique claire de ce que vous calculez.

Il n'est pas clair pour moi si de tels arguments mathématiques donnent des avantages pratiques à l'approche 1 par rapport à l'approche 2. Il y a certainement quelqu'un là-bas qui n'a pas peur d'une fonction de perte non convexe .

— NRH
source

Merci pour la référence à l'exposé de Yann LeCun. J'ai hâte de le regarder.

— Amelio Vazquez-Reina

@NRH a répondu à cette question (il y a plus de 5 ans), je vais donc simplement proposer une approche 3, qui combine les approches 1 et 2.

Approche 3 :

Formuler et résoudre à l'optimalité globale un problème convexe, ou en tout cas optimisable globalement (pas nécessairement convexe), qui est "proche" du problème que vous voulez vraiment résoudre.
Utilisez la solution globalement optimale de l'étape 1 comme solution de départ (initiale) à un problème d'optimisation non convexe que vous voulez vraiment résoudre (ou voulez plus résoudre que le problème résolu à l'étape 1). J'espère que votre solution de départ se situe dans la «région d'attraction» de l'optimum global par rapport à la méthode de solution utilisée pour résoudre le problème d'optimisation non convexe que vous voulez vraiment résoudre.

— Mark L. Stone
source

Veuillez fournir un exemple concret.

— horaceT

Ce n'est pas exactement le cas de Mark, mais une approche courante dans de nombreux problèmes de vision par ordinateur consiste à utiliser la non-convexité graduée pour obtenir une séquence de «bons» optima locaux sur les problèmes connexes. Un exemple concret est un flux optique grossier à fin où pour une paire d'images, un alignement à grande échelle est utilisé pour amorcer la recherche à des échelles plus fines, se déplaçant à travers une paire de pyramides d'images .

— GeoMatt22

y

$y$

a e^{b x}

$ae^{bx}$

y

$y$

a a + b b x

$aa + bb x$

a = e^{a a_{o p t i m a l}}, b = b b_{o p t i m a l}

$a = e^{aa_{optimal}}, b = bb_{optimal}$ comme valeurs de départ pour les moindres carrés non linéaires. Les problèmes sont similaires, mais les erreurs sont traitées différemment. Il existe de nombreux problèmes dans lesquels une pénalité non convexe est souhaitée (pour l'étape 2), mais pourrait être remplacée par une pénalité convexe pour l'étape 1. Plusieurs itérations sont également possibles.

— Mark L. Stone

@ GeoMatt22 Ce que vous avez décrit est similaire dans son esprit et chevauche ce que l'on appelle les méthodes d'homotopie, dans lesquelles un chemin vers la solution du problème que vous voulez vraiment résoudre est tracé en résolvant une série de problèmes dans lesquels un paramètre, tel que une contrainte liée, est progressivement modifiée et des problèmes successifs résolus, pour lesquels le premier problème est facile à résoudre à partir de zéro. Il pourrait en effet être le cas que le premier problème soit convexe, ou autrement susceptible d'être résolu, mais les problèmes ultérieurs pourraient ne pas l'être, même si leur solution optimale pourrait être continue dans le paramètre.

— Mark L. Stone