J'essaie de comprendre quelle est la différence entre le recuit simulé et l'exécution de plusieurs algorithmes gourmands d'escalade. D'après ma compréhension, l'algorithme gourmand poussera le score à un maximum local, mais si nous commençons avec plusieurs configurations aléatoires et appliquons gourmand à toutes, nous aurons plusieurs maximums locaux. Ensuite, nous …
En général, si nous avons un grand ensemble de données, nous pouvons le diviser en (1) formation, (2) validation et (3) test. Nous utilisons la validation pour identifier les meilleurs hyperparamètres en validation croisée (par exemple, C dans SVM), puis nous formons le modèle en utilisant les meilleurs hyperparamètres avec …
J'ai lu les excellents commentaires sur la façon de traiter les valeurs manquantes avant d'appliquer SVD, mais j'aimerais savoir comment cela fonctionne avec un exemple simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Étant donné la matrice …
Les deux processus semblent être utilisés pour estimer la valeur maximale d'une fonction inconnue, et les deux ont évidemment des façons différentes de le faire. Mais dans la pratique, l'une ou l'autre méthode est-elle essentiellement interchangeable? Où voudrais-je utiliser l'un sur l'autre? https://en.wikipedia.org/wiki/Simulated_annealing http://www.iro.umontreal.ca/~bengioy/cifar/NCAP2014-summerschool/slides/Ryan_adams_140814_bayesopt_ncap.pdf Question similaire Optimisation bayésienne ou descente …
J'essaye de l'optimisation bayésienne, suivant Snoek, Larochelle et Adams [ http://arxiv.org/pdf/1206.2944.pdf] , en utilisant GPML [ http://www.gaussianprocess.org/gpml/code/matlab / doc /] . J'ai implémenté la fonction d'acquisition Expected Improvement décrite à la page 3, et je suppose que j'ai raison de décider où interroger mon objectif en suivant.Xx\bf{x} qui maximise: uneEje( …
J'exécute quelques optimisations avec l'implémentation optim de BFGS. La fonction objectif est en fait un algorithme de calcul, pas seulement des mathématiques. J'ai trouvé que lorsque j'ajoute une pénalité en L1, les choses ralentissent un peu. Pourquoi est-ce possible? Y a-t-il quelque chose dans L1 qui ralentit les choses? Alors, …
J'essaie de comprendre comment fonctionne la régularisation en termes de projections sur une boule et de projection euclidienne sur le simplexe.l∗l∗l_* Je ne suis pas sûr de comprendre ce que nous voulons dire lorsque nous le vecteur de poids sur les ou .l1l1l_1l2l2l_2 Je peux comprendre le concept de régularisation …
Je comprends où l'étape E se produit dans l'algorithme (comme expliqué dans la section mathématique ci-dessous). Dans mon esprit, l'ingéniosité clé de l'algorithme est l'utilisation de l'inégalité de Jensen pour créer une limite inférieure à la vraisemblance logarithmique. En ce sens, prendre le Expectationest simplement fait pour reformuler la probabilité …
Il existe de nombreuses règles pour sélectionner une largeur de bac optimale dans un histogramme 1D (voir par exemple ) Je cherche une règle qui applique la sélection de largeurs optimales de bacs égaux sur des histogrammes bidimensionnels . Existe-t-il une telle règle? Peut-être qu'une des règles bien connues pour …
Je viens de commencer à utiliser le package autoencoder dans R. Les entrées de la autoencode()fonction incluent lambda, beta, rho et epsilon. Quelles sont les limites de ces valeurs? Varient-ils pour chaque fonction d'activation? Ces paramètres sont-ils appelés "hyperparamètres"? En supposant un auto-encodeur clairsemé, est rho = .01 bon pour …
J'ai joué avec la régression logistique avec divers algorithmes d'optimisation par lots (gradient conjugué, newton-raphson et diverses méthodes de quasinewton). Une chose que j'ai remarquée est que, parfois, l'ajout de données à un modèle peut en fait rendre la formation du modèle beaucoup moins longue. Chaque itération nécessite de regarder …
Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle se monthly spendtrouve la variable …
http://cran.r-project.org/web/packages/quadprog/quadprog.pdf Le package R ne quadprogsemble pouvoir résoudre le problème de programmation quadratique que lorsque la matrice est définie positive.DDD Cependant, il existe un cas où la matrice n'est pas définie positive. tel queDDD min(x2+y2−6xy)subject tox+y3x+yx,y≤≤≥1,1.5,0.min(x2+y2−6xy)subject tox+y≤1,3x+y≤1.5,x,y≥0.\begin{eqnarray} \min(x^2 + y^2 - 6xy) \\ \text{subject to}\quad\quad x + y &\leq& 1,\\ …
Je travaille sur un projet d'apprentissage automatique où j'essaie d'adapter une courbe sur les données. Malheureusement, la date a un vecteur de fonctionnalité quelque peu élevé. Donc, je ne peux pas vraiment les tracer sur un espace 2D ou 3D pour deviner à quoi ressemble la forme des données. Donc, …
Je suis à la recherche de ressources théoriques (livres, tutoriels, etc.) pour apprendre à faire de solides inférences statistiques à partir de (nombreuses) données de conversion de site Web multivariées. Je suis après le calcul et je ne trouve aucun bon contenu non marketing sur le Web. Le genre de …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.