Questions marquées «optimization»

Utilisez cette balise pour toute utilisation de l'optimisation dans les statistiques.

4
Pourquoi les algorithmes d'optimisation sont-ils définis en fonction d'autres problèmes d'optimisation?
Je fais des recherches sur les techniques d'optimisation pour l'apprentissage automatique, mais je suis surpris de constater qu'un grand nombre d'algorithmes d'optimisation sont définis en fonction d'autres problèmes d'optimisation. J'illustre quelques exemples dans ce qui suit. Par exemple https://arxiv.org/pdf/1511.05133v1.pdf Tout semble beau et bon, mais il y a cet dans …


4
Y a-t-il toujours un maximiseur pour tout problème MLE?
Je me demande s'il y a toujours un maximiseur pour tout problème d'estimation de vraisemblance maximale (log)? En d'autres termes, existe-t-il une distribution et certains de ses paramètres pour lesquels le problème MLE n'a pas de maximiseur? Ma question vient d'une affirmation d'un ingénieur selon laquelle la fonction de coût …

3
Descente de coordonnées vs descente de gradient
Je me demandais quels sont les différents cas d'utilisation pour les deux algorithmes, Descente de coordonnées et Descente de gradient . Je sais que la descente de coordonnées a des problèmes avec les fonctions non lisses mais elle est utilisée dans des algorithmes populaires comme SVM et LASSO. La descente …


4
Comment garantir les propriétés de la matrice de covariance lors de l'ajustement d'un modèle normal multivarié en utilisant le maximum de vraisemblance?
Supposons que j'ai le modèle suivant yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i où yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i est un vecteur de variables explicatives, θθ\theta est les paramètres de la fonction non linéaire fff et εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma) , où ΣΣ\Sigma est naturellement la matrice K×KK×KK\times K Le but est l'habituel d'estimer θθ\theta et ΣΣ\Sigma . Le …

3
Pourquoi la probabilité maximale et la probabilité non attendue?
Pourquoi est-il si courant d'obtenir des estimations du maximum de vraisemblance des paramètres, mais vous n'entendez pratiquement jamais parler des estimations des paramètres de vraisemblance attendues (c'est-à-dire basées sur la valeur attendue plutôt que sur le mode d'une fonction de vraisemblance)? Est-ce principalement pour des raisons historiques ou pour des …


1
Existe-t-il une explication intuitive de la raison pour laquelle la régression logistique ne fonctionnera pas pour un cas de séparation parfait? Et pourquoi l'ajout de la régularisation le corrigera?
Nous avons beaucoup de bonnes discussions sur la séparation parfaite dans la régression logistique. Telles que, la régression logistique dans R a conduit à une séparation parfaite (phénomène de Hauck-Donner). Maintenant quoi? et le modèle de régression logistique ne converge pas . Personnellement, je pense toujours que ce n'est pas …

7
Pourquoi les matrices symétriques positives définies (SPD) sont-elles si importantes?
Je connais la définition de la matrice définie positive symétrique (SPD), mais je veux en savoir plus. Pourquoi sont-ils si importants, intuitivement? Voici ce que je sais. Quoi d'autre? Pour une donnée donnée, la matrice de co-variance est SPD. La matrice de co-variance est une métrique importante, voir cet excellent …

2
Dans les réseaux neuronaux, pourquoi utiliser des méthodes de gradient plutôt que d'autres métaheuristiques?
Dans la formation de réseaux de neurones profonds et peu profonds, pourquoi les méthodes de gradient (par exemple descente de gradient, Nesterov, Newton-Raphson) sont-elles couramment utilisées, par opposition à d'autres métaheuristiques? Par métaheuristique, j'entends des méthodes telles que le recuit simulé, l'optimisation des colonies de fourmis, etc., qui ont été …


3
Quand les algorithmes génétiques sont-ils un bon choix pour l'optimisation?
Les algorithmes génétiques sont une forme de méthode d'optimisation. Souvent, la descente de gradient stochastique et ses dérivés sont le meilleur choix pour l'optimisation des fonctions, mais des algorithmes génétiques sont encore parfois utilisés. Par exemple, l'antenne du vaisseau spatial ST5 de la NASA a été créée avec un algorithme …


1
Pourquoi utiliser la méthode de Newton pour l'optimisation de la régression logistique est-elle appelée moindres carrés itératifs repondérés?
Pourquoi utiliser la méthode de Newton pour l'optimisation de la régression logistique est-elle appelée moindres carrés itératifs repondérés? Cela ne me semble pas clair, car la perte logistique et la perte des moindres carrés sont des choses complètement différentes.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.