J'essaie donc de m'enseigner les réseaux de neurones (pour les applications de régression, pas pour classer les photos de chats). Mes premières expériences ont été la formation d'un réseau pour implémenter un filtre FIR et une transformée de Fourier discrète (formation sur les signaux "avant" et "après"), car ce sont …
Supposons que nous faisons un exemple de jouet sur un gradient décent, minimisant une fonction quadratique , en utilisant une taille de pas fixe . ( )α = 0,03 A = [ 10 , 2 ; 2 , 3 ]xTAxxTAxx^TAxα=0.03α=0.03\alpha=0.03A=[10,2;2,3]A=[10,2;2,3]A=[10, 2; 2, 3] Si nous traçons la trace de à …
Je forme un réseau neuronal convolutionnel simple pour la régression, où la tâche consiste à prédire l'emplacement (x, y) d'une boîte dans une image, par exemple: La sortie du réseau a deux nœuds, un pour x et un pour y. Le reste du réseau est un réseau neuronal convolutif standard. …
Supposons que nous voulons calculer une certaine attente: EYEX|Y[f(X, Y) ]EOuiEX|Oui[F(X,Oui)]E_YE_{X|Y}[f(X,Y)] Supposons que nous voulions l'approcher en utilisant la simulation de Monte Carlo. EOuiEX| Oui[ f( X, Y) ] ≈ 1R S∑r = 1R∑s = 1SF( xr , s, yr)EOuiEX|Oui[F(X,Oui)]≈1RS∑r=1R∑s=1SF(Xr,s,yr)E_YE_{X|Y}[f(X,Y)] \approx \frac1{RS}\sum_{r=1}^R\sum_{s=1}^Sf(x^{r,s},y^r) Mais supposons qu'il est coûteux de prélever des …
Je pensais résoudre le Lasso via des méthodes de premier cycle à la vanille. Mais j'ai lu des gens suggérant d'utiliser la descente du gradient proximal. Quelqu'un peut-il souligner pourquoi la méthode proximale GD au lieu de la vanille est utilisée pour le Lasso?
Dans mon manuel d'économétrie (économétrie d'introduction) couvrant l'OLS, l'auteur écrit: "La RSS doit tomber lorsqu'une autre variable explicative est ajoutée." Pourquoi?
Je recherche un package pour m'aider à résoudre certains problèmes d'optimisation quadratique et je vois qu'il existe au moins une demi-douzaine de packages différents. Selon cette page: QP (programmation quadratique, 90C20): cplexAPI , kernlab , limSolve , LowRankQP , quadprog , Rcplex , Rmosek Certains d'entre eux (Rmosek et cplexAPI) …
Par défaut, lorsque nous utilisons une glmfonction dans R, elle utilise la méthode des moindres carrés itérativement repondérés (IWLS) pour trouver l'estimation du maximum de vraisemblance des paramètres. Maintenant, j'ai deux questions. Les estimations IWLS garantissent-elles le maximum global de la fonction de vraisemblance? D'après la dernière diapositive de cette …
Comment puis-je estimer les intervalles de confiance à 95% en utilisant le profilage des paramètres estimés en maximisant une fonction log-vraisemblance en utilisant optim dans R? Je sais que je peux estimer asymptotiquement la matrice de covariance en inversant la toile de jute , mais je crains que mes données …
C'est une question assez générale (c'est-à-dire pas nécessairement spécifique aux statistiques), mais j'ai remarqué une tendance dans l'apprentissage automatique et la littérature statistique où les auteurs préfèrent suivre l'approche suivante: Approche 1 : obtenir une solution à un problème pratique en formulant une fonction de coût pour laquelle il est …
Je recherche une référence (ou des références) solides sur les techniques d'optimisation numérique destinées aux statisticiens, c'est-à-dire qu'elles appliqueraient ces méthodes à certains problèmes inférentiels standard (par exemple MAP / MLE dans les modèles courants). Des choses comme la descente de gradient (droite et stochastique), l'EM et ses retombées / …
Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …
Je suis relativement nouveau dans l'apprentissage automatique et les statistiques, mais je me demandais pourquoi l'optimisation bayésienne n'est pas référée plus souvent en ligne lors de l'apprentissage de l'apprentissage automatique pour optimiser les hyperparamètres de votre algorithme. Par exemple, en utilisant un cadre comme celui-ci: https://github.com/fmfn/BayesianOptimization L'optimisation bayésienne de vos …
Considérons une réponse y et de la matrice de données X . Supposons que je crée un modèle de formulaire - y ~ g (X,θθ\theta) (g () pourrait être n'importe quelle fonction de X et θθ\theta) Maintenant, pour estimer θθ\thetaen utilisant la méthode du maximum de vraisemblance (ML), je pourrais …
Une fonction boîte noire F:Rn→ RF:Rn→Rf: \mathbb{R}^n \rightarrow \mathbb{R}, qui est évalué ponctuellement soumis au bruit gaussien, à savoir, F( x ) + N( μ ( x ) , σ( x)2)F(X)+N(μ(X),σ(X)2)f(x) + \mathcal{N}(\mu(x),\sigma(x)^2), peut être minimisé en utilisant l'optimisation bayésienne où un processus gaussien est utilisé comme modèle de fonction …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.