C'est quelque chose qui me dérange depuis un moment et je ne trouvais pas de réponses satisfaisantes en ligne, alors voici: Après avoir passé en revue un ensemble de conférences sur l'optimisation convexe, la méthode de Newton semble être un algorithme bien supérieur à la descente de gradient pour trouver …
Supposons que nous ayons un ensemble d’entraînement pour . Supposons également que nous exécutions un type d'algorithme d'apprentissage supervisé sur l'ensemble d'apprentissage. Les hypothèses sont représentées par . Nous devons trouver les paramètres qui minimisent la "distance" entre et . Soit(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots …
De nombreux ouvrages et tutoriels sur les réseaux de neurones consacrent beaucoup de temps à l'algorithme de rétropropagation, qui est essentiellement un outil permettant de calculer le gradient. Supposons que nous construisons un modèle avec ~ 10K paramètres / poids. Est-il possible d'exécuter l'optimisation à l'aide d'algorithmes d'optimisation sans gradient? …
La fonction d'activation de tanh est: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Où , la fonction sigmoïde, est définie comme suit: .σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} Des questions: Est-ce vraiment important d'utiliser ces deux fonctions d'activation (tanh vs sigma)? Quelle fonction …
Dans la plupart des tâches d’apprentissage automatique où vous pouvez formuler une probabilité qui doit être maximisée, nous optimisons en fait la probabilité de au lieu de la probabilité de certains paramètres . Par exemple, dans l'entraînement à probabilité maximum, il s'agit généralement du log-vraisemblance. Lorsque vous faites cela avec …
La descente en gradient et de nombreuses autres méthodes sont utiles pour trouver des minima locaux dans les fonctions de coût. Ils peuvent être efficaces lorsque la fonction de coût peut être évaluée rapidement à chaque point, que ce soit numériquement ou analytiquement. J'ai ce qui me semble être une …
J'ai beaucoup lu sur la PCA, y compris divers tutoriels et questions (comme celle-ci , celle-ci , celle-ci et celle-ci ). Le problème géométrique que PCA essaie d’optimiser m’est clair: PCA essaie de trouver le premier composant principal en minimisant l’erreur de reconstruction (projection), ce qui maximise simultanément la variance …
Ainsi, la descente de gradient basée sur la quantité de mouvement fonctionne comme suit: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g où est la mise à jour précédente du poids, et est le gradient actuel par rapport aux paramètres , est le taux d'apprentissage et est une constante.mmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + v = p + …
Dans un récent post de blog de Rong Ge, il était dit que: On pense que pour de nombreux problèmes, dont l’apprentissage de réseaux profonds, presque tous les minimums locaux ont une valeur fonctionnelle très proche de l’optimum global, et qu’il est donc suffisant de trouver un minimum local. D'où …
Je connais bien les algorithmes de base de descente de gradient pour la formation de réseaux de neurones. J'ai lu le document proposant Adam: ADAM: UNE MÉTHODE D'OPTIMISATION STOCHASTIQUE . Bien que j'ai certainement quelques idées (du moins), le papier semble être trop élevé pour moi en général. Par exemple, …
Momentum est utilisé pour diminuer les fluctuations de poids lors d’itérations successives:αα\alpha Δ ωje( t + 1 ) = - η∂E∂wje+ α Δ ωje( t ) ,Δωje(t+1)=-η∂E∂wje+αΔωje(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), où E( w )E(w)E({\bf w}) est la fonction d'erreur, ww{\bf w} - le vecteur …
Je suis en train de parcourir la recherche aléatoire d'optimisation d'hyper-paramètre [1] de Bengio et Bergsta, où les auteurs affirment que la recherche aléatoire est plus efficace que la recherche sur grille pour obtenir des performances à peu près égales. Ma question est la suivante: les gens ici sont-ils d'accord …
Dériver numériquement les MLE de GLMM est difficile et, dans la pratique, je sais que nous ne devrions pas utiliser l'optimisation de la force brute (par exemple, en utilisant optimune méthode simple). Mais pour mon propre but éducatif, je veux l'essayer pour m'assurer de bien comprendre le modèle (voir le …
Quelqu'un peut-il me donner s'il vous plaît une certaine intuition quant au moment de choisir SVM ou LR? Je veux comprendre l'intuition de la différence entre les critères d'optimisation d'apprentissage de l'hyperplan des deux, dont les objectifs respectifs sont les suivants: SVM: essayez de maximiser la marge entre les vecteurs …
Cette question est peut-être trop ouverte pour obtenir une réponse définitive, mais j'espère que non. Les algorithmes d'apprentissage machine, tels que SVM, GBM, Random Forest, etc., ont généralement quelques paramètres libres qui, au-delà de certaines indications empiriques, doivent être adaptés à chaque jeu de données. Cela se fait généralement avec …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.