Questions marquées «optimization»

Utilisez cette balise pour toute utilisation de l'optimisation dans les statistiques.


3
Descente de gradient par lots et descente de gradient stochastique
Supposons que nous ayons un ensemble d’entraînement pour . Supposons également que nous exécutions un type d'algorithme d'apprentissage supervisé sur l'ensemble d'apprentissage. Les hypothèses sont représentées par . Nous devons trouver les paramètres qui minimisent la "distance" entre et . Soit(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots …

6
Est-il possible de former un réseau de neurones sans rétropropagation?
De nombreux ouvrages et tutoriels sur les réseaux de neurones consacrent beaucoup de temps à l'algorithme de rétropropagation, qui est essentiellement un outil permettant de calculer le gradient. Supposons que nous construisons un modèle avec ~ 10K paramètres / poids. Est-il possible d'exécuter l'optimisation à l'aide d'algorithmes d'optimisation sans gradient? …

2
fonction d'activation tanh vs fonction d'activation sigmoïde
La fonction d'activation de tanh est: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Où , la fonction sigmoïde, est définie comme suit: .σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} Des questions: Est-ce vraiment important d'utiliser ces deux fonctions d'activation (tanh vs sigma)? Quelle fonction …



5
Quelle est l'explication intuitive de la façon dont l'ACP passe d'un problème géométrique (avec des distances) à un problème d'algèbre linéaire (avec des vecteurs propres)?
J'ai beaucoup lu sur la PCA, y compris divers tutoriels et questions (comme celle-ci , celle-ci , celle-ci et celle-ci ). Le problème géométrique que PCA essaie d’optimiser m’est clair: PCA essaie de trouver le premier composant principal en minimisant l’erreur de reconstruction (projection), ce qui maximise simultanément la variance …

4
Quelle est la différence entre la descente de gradient basée sur la quantité de mouvement et la descente de gradient accélérée de Nesterov?
Ainsi, la descente de gradient basée sur la quantité de mouvement fonctionne comme suit: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g où est la mise à jour précédente du poids, et est le gradient actuel par rapport aux paramètres , est le taux d'apprentissage et est une constante.mmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + v = p + …

1
Comprendre que «presque tous les minimums locaux ont une valeur de fonction très similaire à l’optimum global»
Dans un récent post de blog de Rong Ge, il était dit que: On pense que pour de nombreux problèmes, dont l’apprentissage de réseaux profonds, presque tous les minimums locaux ont une valeur fonctionnelle très proche de l’optimum global, et qu’il est donc suffisant de trouver un minimum local. D'où …


1
Réseaux de neurones: impulsion de changement de poids et perte de poids
Momentum est utilisé pour diminuer les fluctuations de poids lors d’itérations successives:αα\alpha Δ ωje( t + 1 ) = - η∂E∂wje+ α Δ ωje( t ) ,Δωje(t+1)=-η∂E∂wje+αΔωje(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), où E( w )E(w)E({\bf w}) est la fonction d'erreur, ww{\bf w} - le vecteur …


1
Pourquoi glmer n'atteint-il pas le maximum de vraisemblance (comme le prouve l'application d'une optimisation générique supplémentaire)?
Dériver numériquement les MLE de GLMM est difficile et, dans la pratique, je sais que nous ne devrions pas utiliser l'optimisation de la force brute (par exemple, en utilisant optimune méthode simple). Mais pour mon propre but éducatif, je veux l'essayer pour m'assurer de bien comprendre le modèle (voir le …

3
Comparaison SVM et régression logistique
Quelqu'un peut-il me donner s'il vous plaît une certaine intuition quant au moment de choisir SVM ou LR? Je veux comprendre l'intuition de la différence entre les critères d'optimisation d'apprentissage de l'hyperplan des deux, dont les objectifs respectifs sont les suivants: SVM: essayez de maximiser la marge entre les vecteurs …

5
Peut-on sur-adapter en apprenant des algorithmes d’apprentissage automatique en utilisant CV / Bootstrap?
Cette question est peut-être trop ouverte pour obtenir une réponse définitive, mais j'espère que non. Les algorithmes d'apprentissage machine, tels que SVM, GBM, Random Forest, etc., ont généralement quelques paramètres libres qui, au-delà de certaines indications empiriques, doivent être adaptés à chaque jeu de données. Cela se fait généralement avec …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.