Lors de la régression, par exemple, deux hyper paramètres à choisir sont souvent la capacité de la fonction (par exemple, le plus grand exposant d’un polynôme) et la quantité de régularisation. Pourquoi ne pas simplement choisir une fonction à faible capacité, puis ignorer toute régularisation? De cette façon, il ne …
L'algorithme PCA peut être formulé en termes de matrice de corrélation (supposons que les données ont déjà été normalisées et que nous ne considérons que la projection sur le premier PC). La fonction objectif peut s'écrire:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. C'est très bien, et nous …
Si les Hessois sont si bons pour l'optimisation (voir par exemple la méthode de Newton ), pourquoi s'arrêter là? Utilisons les troisième, quatrième, cinquième et sixième dérivés? Pourquoi pas?
À titre d'exemple, prendre la fonction objective du modèle XGBoost sur le « e itération:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) où est la fonction de perte, est le ième sortie arbre et est la régularisation. L'une des (nombreuses) étapes clés pour un calcul rapide est l'approximation:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), où et sont les première et …
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …
Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …
Nous savons que certaines fonctions objectives sont plus faciles à optimiser et certaines sont difficiles. Et il existe de nombreuses fonctions de perte que nous voulons utiliser mais difficiles à utiliser, par exemple une perte de 0-1. Nous trouvons donc des fonctions de perte de proxy pour faire le travail. …
Je travaille sur l'apprentissage machine théorique - sur l'apprentissage par transfert, pour être précis - pour mon doctorat. Par curiosité, pourquoi devrais-je suivre un cours sur l'optimisation convexe? Quelles leçons tirer de l'optimisation convexe puis-je utiliser dans mes recherches sur le machine learning théorique?
J'ai terminé le cours d'apprentissage automatique d'Andrew Ng il y a environ un an et j'écris maintenant mon exploration des mathématiques au lycée sur le fonctionnement de la régression logistique et des techniques pour optimiser les performances. Une de ces techniques est bien sûr la régularisation. L'objectif de la régularisation …
Je ne sais pas si cette question appartient ici, mais elle est étroitement liée aux méthodes de gradient en optimisation, qui semble être sur le sujet ici. Quoi qu'il en soit, n'hésitez pas à migrer si vous pensez qu'une autre communauté a une meilleure expertise dans le sujet. En bref, …
Lorsque nous lisons un livre, la compréhension des notations joue un rôle très important dans la compréhension du contenu. Malheureusement, différentes communautés ont des conventions de notation différentes pour la formulation du modèle et le problème d'optimisation. Quelqu'un pourrait-il résumer certaines notations de formulation ici et fournir des raisons possibles? …
Étant donné une fonction de coût convexe, en utilisant SGD pour l'optimisation, nous aurons un gradient (vecteur) à un certain point au cours du processus d'optimisation. Ma question est, étant donné le point sur le convexe, le gradient ne pointe-t-il que vers la direction dans laquelle la fonction augmente / …
Je lisais sur l' optimiseur Adam pour le Deep Learning et suis tombé sur la phrase suivante dans le nouveau livre Deep Learning de Bengio, Goodfellow et Courville: Adam est généralement considéré comme assez robuste pour le choix des paramètres hyper, bien que le taux d'apprentissage doive parfois être modifié …
En fait, je voulais vous demander comment puis-je définir la condition de fin pour la descente en gradient. Puis-je l'arrêter en fonction du nombre d'itérations, c'est-à-dire en tenant compte des valeurs des paramètres pour, disons, 100 itérations? Ou dois-je attendre de telle sorte que les différentes valeurs des deux paramètres …
Remarque: Je poste une question d'un ancien élève qui ne peut pas publier seul pour des raisons techniques. Étant donné un échantillon iid d'une distribution de Weibull avec pdf y a-t-il une représentation de variable manquante utile et donc un algorithme EM (expectation-maximization) associé qui pourrait être utilisé pour trouver …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.