Statistiques et Big Data optimization

4

Pourquoi les algorithmes d'optimisation sont-ils définis en fonction d'autres problèmes d'optimisation?

Je fais des recherches sur les techniques d'optimisation pour l'apprentissage automatique, mais je suis surpris de constater qu'un grand nombre d'algorithmes d'optimisation sont définis en fonction d'autres problèmes d'optimisation. J'illustre quelques exemples dans ce qui suit. Par exemple https://arxiv.org/pdf/1511.05133v1.pdf Tout semble beau et bon, mais il y a cet dans …

23 machine-learning svm optimization

2

Les techniques d'apprentissage automatique sont-elles des «algorithmes d'approximation»?

Récemment, il y a eu une question de type ML sur cstheory stackexchange, et j'ai posté une réponse recommandant la méthode de Powell, la descente de gradient, les algorithmes génétiques ou autres "algorithmes d'approximation". Dans un commentaire, quelqu'un m'a dit que ces méthodes étaient des "heuristiques" et non des "algorithmes …

23 machine-learning optimization approximation

4

Y a-t-il toujours un maximiseur pour tout problème MLE?

Je me demande s'il y a toujours un maximiseur pour tout problème d'estimation de vraisemblance maximale (log)? En d'autres termes, existe-t-il une distribution et certains de ses paramètres pour lesquels le problème MLE n'a pas de maximiseur? Ma question vient d'une affirmation d'un ingénieur selon laquelle la fonction de coût …

23 maximum-likelihood optimization

3

Descente de coordonnées vs descente de gradient

Je me demandais quels sont les différents cas d'utilisation pour les deux algorithmes, Descente de coordonnées et Descente de gradient . Je sais que la descente de coordonnées a des problèmes avec les fonctions non lisses mais elle est utilisée dans des algorithmes populaires comme SVM et LASSO. La descente …

23 optimization gradient-descent

1

Pourquoi la fonction de coût des réseaux de neurones n'est-elle pas convexe?

Il y a un fil similaire ici (la fonction de coût du réseau de neurones n'est pas convexe? ) Mais je n'ai pas pu comprendre les points dans les réponses et ma raison de demander à nouveau en espérant que cela clarifiera certains problèmes: Si j'utilise la fonction de somme …

22 machine-learning neural-networks optimization loss-functions convex

4

Comment garantir les propriétés de la matrice de covariance lors de l'ajustement d'un modèle normal multivarié en utilisant le maximum de vraisemblance?

Supposons que j'ai le modèle suivant yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i où yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i est un vecteur de variables explicatives, θθ\theta est les paramètres de la fonction non linéaire fff et εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma) , où ΣΣ\Sigma est naturellement la matrice K×KK×KK\times K Le but est l'habituel d'estimer θθ\theta et ΣΣ\Sigma . Le …

22 maximum-likelihood optimization covariance

3

Pourquoi la probabilité maximale et la probabilité non attendue?

Pourquoi est-il si courant d'obtenir des estimations du maximum de vraisemblance des paramètres, mais vous n'entendez pratiquement jamais parler des estimations des paramètres de vraisemblance attendues (c'est-à-dire basées sur la valeur attendue plutôt que sur le mode d'une fonction de vraisemblance)? Est-ce principalement pour des raisons historiques ou pour des …

22 probability mathematical-statistics maximum-likelihood optimization expected-value

2

Comment choisir entre des algorithmes d'apprentissage

J'ai besoin de mettre en œuvre un programme qui classera les enregistrements en 2 catégories (vrai / faux) en fonction de certaines données de formation, et je me demandais quel algorithme / méthodologie je devrais examiner. Il semble y en avoir beaucoup parmi lesquels choisir - Réseau de neurones artificiels, …

21 machine-learning bayesian optimization genetic-algorithms

1

Existe-t-il une explication intuitive de la raison pour laquelle la régression logistique ne fonctionnera pas pour un cas de séparation parfait? Et pourquoi l'ajout de la régularisation le corrigera?

Nous avons beaucoup de bonnes discussions sur la séparation parfaite dans la régression logistique. Telles que, la régression logistique dans R a conduit à une séparation parfaite (phénomène de Hauck-Donner). Maintenant quoi? et le modèle de régression logistique ne converge pas . Personnellement, je pense toujours que ce n'est pas …

20 logistic generalized-linear-model optimization intuition separation

7

Pourquoi les matrices symétriques positives définies (SPD) sont-elles si importantes?

Je connais la définition de la matrice définie positive symétrique (SPD), mais je veux en savoir plus. Pourquoi sont-ils si importants, intuitivement? Voici ce que je sais. Quoi d'autre? Pour une donnée donnée, la matrice de co-variance est SPD. La matrice de co-variance est une métrique importante, voir cet excellent …

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

2

Dans les réseaux neuronaux, pourquoi utiliser des méthodes de gradient plutôt que d'autres métaheuristiques?

Dans la formation de réseaux de neurones profonds et peu profonds, pourquoi les méthodes de gradient (par exemple descente de gradient, Nesterov, Newton-Raphson) sont-elles couramment utilisées, par opposition à d'autres métaheuristiques? Par métaheuristique, j'entends des méthodes telles que le recuit simulé, l'optimisation des colonies de fourmis, etc., qui ont été …

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

Quelles méthodes d'optimisation fonctionnent le mieux pour les LSTM?

J'ai utilisé theeano pour expérimenter avec des LSTM et je me demandais quelles méthodes d'optimisation (SGD, Adagrad, Adadelta, RMSprop, Adam, etc.) fonctionnent le mieux pour les LSTM? Existe-t-il des documents de recherche sur ce sujet? De plus, la réponse dépend-elle du type d'application pour laquelle j'utilise le LSTM? Si c'est …

20 machine-learning neural-networks optimization lstm

3

Quand les algorithmes génétiques sont-ils un bon choix pour l'optimisation?

Les algorithmes génétiques sont une forme de méthode d'optimisation. Souvent, la descente de gradient stochastique et ses dérivés sont le meilleur choix pour l'optimisation des fonctions, mais des algorithmes génétiques sont encore parfois utilisés. Par exemple, l'antenne du vaisseau spatial ST5 de la NASA a été créée avec un algorithme …

20 machine-learning optimization gradient-descent genetic-algorithms

2

Quelle est la signification du super script 2 indice 2 dans le contexte des normes?

Je suis nouveau dans l'optimisation. Je continue de voir des équations qui ont un exposant 2 et un indice 2 sur le côté droit d'une norme. Par exemple, voici l'équation des moindres carrés min||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Je pense que je comprends l'exposant 2: cela signifie mettre au carré la valeur de …

20 regression optimization notation

1

Pourquoi utiliser la méthode de Newton pour l'optimisation de la régression logistique est-elle appelée moindres carrés itératifs repondérés?

Pourquoi utiliser la méthode de Newton pour l'optimisation de la régression logistique est-elle appelée moindres carrés itératifs repondérés? Cela ne me semble pas clair, car la perte logistique et la perte des moindres carrés sont des choses complètement différentes.

19 logistic generalized-linear-model optimization irls fisher-scoring

Questions marquées «optimization»