Je fais des recherches sur les techniques d'optimisation pour l'apprentissage automatique, mais je suis surpris de constater qu'un grand nombre d'algorithmes d'optimisation sont définis en fonction d'autres problèmes d'optimisation. J'illustre quelques exemples dans ce qui suit. Par exemple https://arxiv.org/pdf/1511.05133v1.pdf Tout semble beau et bon, mais il y a cet dans …
Récemment, il y a eu une question de type ML sur cstheory stackexchange, et j'ai posté une réponse recommandant la méthode de Powell, la descente de gradient, les algorithmes génétiques ou autres "algorithmes d'approximation". Dans un commentaire, quelqu'un m'a dit que ces méthodes étaient des "heuristiques" et non des "algorithmes …
Je me demande s'il y a toujours un maximiseur pour tout problème d'estimation de vraisemblance maximale (log)? En d'autres termes, existe-t-il une distribution et certains de ses paramètres pour lesquels le problème MLE n'a pas de maximiseur? Ma question vient d'une affirmation d'un ingénieur selon laquelle la fonction de coût …
Je me demandais quels sont les différents cas d'utilisation pour les deux algorithmes, Descente de coordonnées et Descente de gradient . Je sais que la descente de coordonnées a des problèmes avec les fonctions non lisses mais elle est utilisée dans des algorithmes populaires comme SVM et LASSO. La descente …
Il y a un fil similaire ici (la fonction de coût du réseau de neurones n'est pas convexe? ) Mais je n'ai pas pu comprendre les points dans les réponses et ma raison de demander à nouveau en espérant que cela clarifiera certains problèmes: Si j'utilise la fonction de somme …
Supposons que j'ai le modèle suivant yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i où yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i est un vecteur de variables explicatives, θθ\theta est les paramètres de la fonction non linéaire fff et εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma) , où ΣΣ\Sigma est naturellement la matrice K×KK×KK\times K Le but est l'habituel d'estimer θθ\theta et ΣΣ\Sigma . Le …
Pourquoi est-il si courant d'obtenir des estimations du maximum de vraisemblance des paramètres, mais vous n'entendez pratiquement jamais parler des estimations des paramètres de vraisemblance attendues (c'est-à-dire basées sur la valeur attendue plutôt que sur le mode d'une fonction de vraisemblance)? Est-ce principalement pour des raisons historiques ou pour des …
J'ai besoin de mettre en œuvre un programme qui classera les enregistrements en 2 catégories (vrai / faux) en fonction de certaines données de formation, et je me demandais quel algorithme / méthodologie je devrais examiner. Il semble y en avoir beaucoup parmi lesquels choisir - Réseau de neurones artificiels, …
Nous avons beaucoup de bonnes discussions sur la séparation parfaite dans la régression logistique. Telles que, la régression logistique dans R a conduit à une séparation parfaite (phénomène de Hauck-Donner). Maintenant quoi? et le modèle de régression logistique ne converge pas . Personnellement, je pense toujours que ce n'est pas …
Je connais la définition de la matrice définie positive symétrique (SPD), mais je veux en savoir plus. Pourquoi sont-ils si importants, intuitivement? Voici ce que je sais. Quoi d'autre? Pour une donnée donnée, la matrice de co-variance est SPD. La matrice de co-variance est une métrique importante, voir cet excellent …
Dans la formation de réseaux de neurones profonds et peu profonds, pourquoi les méthodes de gradient (par exemple descente de gradient, Nesterov, Newton-Raphson) sont-elles couramment utilisées, par opposition à d'autres métaheuristiques? Par métaheuristique, j'entends des méthodes telles que le recuit simulé, l'optimisation des colonies de fourmis, etc., qui ont été …
J'ai utilisé theeano pour expérimenter avec des LSTM et je me demandais quelles méthodes d'optimisation (SGD, Adagrad, Adadelta, RMSprop, Adam, etc.) fonctionnent le mieux pour les LSTM? Existe-t-il des documents de recherche sur ce sujet? De plus, la réponse dépend-elle du type d'application pour laquelle j'utilise le LSTM? Si c'est …
Les algorithmes génétiques sont une forme de méthode d'optimisation. Souvent, la descente de gradient stochastique et ses dérivés sont le meilleur choix pour l'optimisation des fonctions, mais des algorithmes génétiques sont encore parfois utilisés. Par exemple, l'antenne du vaisseau spatial ST5 de la NASA a été créée avec un algorithme …
Je suis nouveau dans l'optimisation. Je continue de voir des équations qui ont un exposant 2 et un indice 2 sur le côté droit d'une norme. Par exemple, voici l'équation des moindres carrés min||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Je pense que je comprends l'exposant 2: cela signifie mettre au carré la valeur de …
Pourquoi utiliser la méthode de Newton pour l'optimisation de la régression logistique est-elle appelée moindres carrés itératifs repondérés? Cela ne me semble pas clair, car la perte logistique et la perte des moindres carrés sont des choses complètement différentes.
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.