Récemment, j'ai lu un article de Yann Dauphin et al. Identifier et attaquer le problème du point de selle dans l'optimisation non convexe de haute dimension , où ils introduisent un algorithme de descente intéressant appelé Saddle-Free Newton , qui semble être exactement adapté pour l'optimisation du réseau neuronal et …
Cette question a déjà des réponses ici : Algorithme de rétropropagation (2 réponses) Fermé il y a 3 mois . Qu'est-ce que l'algorithme de rétropropagation et comment fonctionne-t-il?
J'essaie de régler les hyperparamètres de l'algorithme de régression de processus gaussien que j'ai implémenté. Je veux simplement maximiser la probabilité marginale de log donnée par la formule où K est la matrice de covariance avec le éléments K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ …
La fonction objective de l'analyse en composantes principales (ACP) minimise l'erreur de reconstruction dans la norme L2 (voir la section 2.12 ici . Une autre vue essaie de maximiser la variance sur la projection. Nous avons également un excellent article ici: Quelle est la fonction objective de l'ACP ? ). …
Voici le problème d'écart le moins absolu sous concerné:. Je sais qu'il peut être réorganisé comme problème LP de la manière suivante:argminwL(w)=∑ni=1|yi−wTx|argminwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n Mais je n'ai aucune idée de le résoudre étape …
TL; DR: l' lme4optimisation semble être linéaire dans le nombre de paramètres du modèle par défaut, et est beaucoup plus lente qu'un glmmodèle équivalent avec des variables factices pour les groupes. Puis-je faire quelque chose pour l'accélérer? J'essaie d'adapter un modèle logit hiérarchique assez grand (~ 50k lignes, 100 colonnes, …
L'utilisation de «variationnel» fait-elle toujours référence à l'optimisation via l'inférence variationnelle? Exemples: "Auto-encodeur variationnel" "Méthodes bayésiennes variationnelles" "Groupe de renormalisation variationnelle"
J'exécute des expériences sur l'ensemble de validation EMNIST en utilisant des réseaux avec RMSProp, Adam et SGD. J'atteins une précision de 87% avec SGD (taux d'apprentissage de 0,1) et décrochage (0,1 décrochage prob) ainsi que la régularisation L2 (pénalité 1e-05). En testant la même configuration exacte avec RMSProp et Adam …
Voici un exemple de code keras qui l'utilise: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))
Dans l'apprentissage automatique (pour les problèmes de régression), je vois souvent l'erreur quadratique moyenne (MSE) ou l'erreur absolue moyenne (MAE) utilisée comme fonction d'erreur pour minimiser (plus le terme de régularisation). Je me demande s'il existe des situations où l'utilisation d'un coefficient de corrélation serait plus appropriée? si une telle …
Pour éviter de sur-adapter les gens, les gens ajoutent un terme de régularisation (proportionnel à la somme au carré des paramètres du modèle) avec un paramètre de régularisation à la fonction de coût de la régression linéaire. Ce paramètre λ est-il le même qu'un multiplicateur de décalage? La régularisation est-elle …
Je voulais mieux comprendre le test exact du pêcheur, j'ai donc imaginé l'exemple de jouet suivant, où f et m correspond à l'homme et à la femme, et n et y correspond à la "consommation de soda" comme ceci: > soda_gender f m n 0 5 y 5 0 Évidemment, …
J'essaie de comprendre le processus de formation d'une machine à vecteur de support linéaire . Je me rends compte que les propriétés des SMV leur permettent d'être optimisées beaucoup plus rapidement qu'en utilisant un solveur de programmation quadratique, mais à des fins d'apprentissage, j'aimerais voir comment cela fonctionne. Données d'entraînement …
J'ai une fonction de vraisemblance pour la probabilité de mes données étant donné certains paramètres du modèle , que je voudrais estimer. En supposant des a priori plats sur les paramètres, la probabilité est proportionnelle à la probabilité postérieure. J'utilise une méthode MCMC pour échantillonner cette probabilité.L (d| θ)L(ré|θ)\mathcal{L}(d | …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.