Selon les références Livre 1 , Livre 2 et papier . Il a été mentionné qu'il existe une équivalence entre la régression régularisée (Ridge, LASSO et Elastic Net) et leurs formules de contraintes. J'ai également examiné Cross Validated 1 et Cross Validated 2 , mais je ne vois pas de …
En choisissant le paramètre de régularisation lambda dans Ridge ou Lasso, la méthode recommandée consiste à essayer différentes valeurs de lambda, à mesurer l'erreur dans l'ensemble de validation et enfin à choisir la valeur de lambda qui renvoie l'erreur la plus faible. Ce n'est pas pour moi si la fonction …
C'est un sujet difficile pour moi sur Google, car avoir les mots optimisation et stochastique dans une recherche par défaut est presque automatiquement une recherche d'optimisation stochastique. Mais ce que je veux vraiment savoir, c'est quelles méthodes existent pour l'optimisation des modèles informatiques lorsque la sortie du modèle informatique est …
Je recherche une méthode de binning optimale (discrétisation) d'une variable continue par rapport à une variable binaire de réponse (cible) donnée et avec un nombre maximum d'intervalles comme paramètre. exemple: J'ai un ensemble d'observations de personnes avec des variables "hauteur" (numéral continu) et "has_back_pains" (binaire). Je veux discrétiser la hauteur …
Ma coiffeuse Stacey a toujours un visage heureux, mais elle est souvent stressée par la gestion de son temps. Aujourd'hui, Stacey était en retard pour ma nomination et très excusée. Tout en obtenant ma coupe de cheveux, je me suis demandé: combien de temps ses rendez-vous standard devraient-ils être? (si …
J'essaie d'implémenter l'algorithme Nelder-Mead pour optimiser une fonction. La page wikipedia sur Nelder-Mead est étonnamment claire sur l'ensemble de l'algorithme, à l'exception de son critère d'arrêt. Là, il dit malheureusement: Vérifier la convergence [clarification nécessaire] . J'ai moi-même essayé et testé quelques critères: Arrêtez si où ϵ est petit et …
Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …
J'ai rencontré ces diapositives (diapositives # 16 et # 17) dans l'un des cours en ligne. L'instructeur tentait d'expliquer comment l'estimation maximale postérieure (MAP) est en fait la solution L ( θ ) = I[ θ ≠ θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , où θ∗θ∗\theta^{*} est le véritable paramètre. Quelqu'un …
Ma compréhension de la régression LASSO est que les coefficients de régression sont sélectionnés pour résoudre le problème de minimisation: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t En pratique, cela se fait en utilisant un multiplicateur de Lagrange, ce qui rend le problème à résoudre …
Si j'ai une matrice de conception , où est le nombre d'observations de dimension , quelle est la complexité de la résolution de avec LASSO, wrt et ? Je pense que la réponse devrait se référer à la façon dont une itération LASSO évolue avec ces paramètres, plutôt qu'à la …
Je suis le tutoriel mnist Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Le didacticiel utilise tf.train.Optimizer.minimize(spécifiquement tf.train.GradientDescentOptimizer). Je ne vois aucun argument transmis nulle part pour définir des gradients. Le flux tenseur utilise-t-il la différenciation numérique par défaut? Existe-t-il un moyen de passer des dégradés comme vous le pouvez avec scipy.optimize.minimize?
Le système de notation Elo utilise un algorithme de minimisation de descente de gradient de la fonction de perte d'entropie croisée entre la probabilité attendue et observée d'un résultat dans des comparaisons appariées. Nous pouvons écrire les fonctions de perte générales comme E=−∑n,ipiLog(qi)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) où la somme …
Fondamentalement, je veux convertir les mesures de similitude en poids qui sont utilisés comme prédicteurs. Les similitudes seront sur [0,1], et je limiterai les poids à également sur [0,1]. J'aimerais une fonction paramétrique qui effectue cette cartographie que j'optimiserai probablement en utilisant la descente de gradient. Les exigences sont que …
J'essaie d'adapter un modèle à temps discret dans R, mais je ne sais pas comment le faire. J'ai lu que vous pouvez organiser la variable dépendante dans différentes lignes, une pour chaque observation de temps, et utiliser la glmfonction avec un lien logit ou cloglog. En ce sens, j'ai trois …
J'essaie de comprendre l'optimisation de la descente de gradient dans les algorithmes ML (machine learning). Je comprends qu'il ya une fonction où le coût l'objectif est de minimiser l'erreur y - y . Dans un scénario où les poids w 1 , w 2 sont optimisés pour donner l'erreur minimale …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.