Existe-t-il une définition mathématique ou algorithmique du sur-ajustement? Les définitions souvent fournies sont le tracé 2D classique de points avec une ligne passant par chaque point et la courbe de perte de validation qui augmente soudainement. Mais y a-t-il une définition mathématiquement rigoureuse?
De tout algorithme d'échantillonnage générique, on peut dériver un algorithme d'optimisation. En effet, pour maximiser une fonction arbitraire , il suffit de tirer des échantillons de . Pour suffisamment petit, ces échantillons tomberont près du maximum global (ou maxima local en pratique) de la fonction .F: x → f( x …
J'essaie de minimiser une fonction personnalisée. Il doit accepter cinq paramètres et l'ensemble de données et effectuer toutes sortes de calculs, en produisant un seul nombre en sortie. Je veux trouver une combinaison de cinq paramètres d'entrée qui donne la plus petite sortie de ma fonction.
De nombreux didacticiels en ligne parlent de la descente de gradient et presque tous utilisent une taille de pas fixe (taux d'apprentissage ). Pourquoi n'y a-t-il pas d'utilisation de la recherche de ligne (comme la recherche de ligne en arrière ou la recherche de ligne exacte)?αα\alpha
J'ai vu des conclusions similaires à partir de nombreuses discussions, à mesure que la taille du mini-lot augmente, la convergence des SGD devient en fait plus difficile / pire, par exemple ce document et cette réponse . J'ai également entendu parler de personnes utilisant des astuces comme de petits taux …
Nous définissons une époque comme ayant parcouru l'intégralité de tous les échantillons d'apprentissage disponibles, et la taille du mini-lot comme le nombre d'échantillons sur lesquels nous faisons la moyenne pour trouver les mises à jour des poids / biais nécessaires pour descendre le gradient. Ma question est de savoir si …
J'apprends juste l'optimisation et j'ai du mal à comprendre la différence entre l'optimisation convexe et non convexe. D'après ma compréhension, une fonction convexe est une fonction où "le segment de ligne entre deux points quelconques sur le graphique de la fonction se trouve au-dessus ou sur le graphique". Dans ce …
Je suppose que c'est une question fondamentale et cela a à voir avec la direction du gradient lui-même, mais je cherche des exemples où les méthodes de 2ème ordre (par exemple BFGS ) sont plus efficaces qu'une simple descente de gradient.
On peut effectuer une régression logit dans R en utilisant un tel code: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 Il semble que l'algorithme d'optimisation ait convergé - il existe des informations sur le nombre d'étapes de …
J'ai trouvé cette implémentation Python de l' algorithme Jenks Natural Breaks et je pouvais la faire fonctionner sur ma machine Windows 7. Il est assez rapide et trouve les ruptures en peu de temps, compte tenu de la taille de mes géodonnées. Avant d'utiliser cet algorithme de clustering pour mes …
J'essaie d'utiliser la perte au carré pour effectuer une classification binaire sur un ensemble de données de jouets. J'utilise mtcarsun ensemble de données, utilise le mile par gallon et le poids pour prédire le type de transmission. Le graphique ci-dessous montre les deux types de données de type de transmission …
J'essaie de reproduire avec optimles résultats d'une simple régression linéaire équipée glmou même de nlsfonctions R. Les estimations des paramètres sont les mêmes, mais l'estimation de la variance résiduelle et les erreurs-types des autres paramètres ne sont pas les mêmes, en particulier lorsque la taille de l'échantillon est faible. Je …
J'utilise la glmerfonction du lme4package dans R, et j'utilise l' bobyqaoptimiseur (c'est-à-dire la valeur par défaut dans mon cas). Je reçois un avertissement et je suis curieux de savoir ce que cela signifie. Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa …
J'ai essayé de coder un algorithme pour suggérer des paris dans des jeux 1X2 (pondérés). Fondamentalement, chaque match a un ensemble de matchs (équipes à domicile vs équipes à l'extérieur): 1: victoires à domicile X: dessiner 2: victoires à l'extérieur Pour chaque correspondance et symbole ( 1, Xet 2), j'attribuerai …
Je suis curieux de savoir pourquoi nous traitons l'ajustement de GLMS comme s'il s'agissait d'un problème d'optimisation spécial. Sont-ils? Il me semble que ce ne sont que des probabilités maximales, et que nous écrivons la probabilité et ensuite ... nous la maximisons! Alors pourquoi utilisons-nous la notation de Fisher au …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.