Questions marquées «optimization»

Utilisez cette balise pour toute utilisation de l'optimisation dans les statistiques.



1
La vraisemblance logarithmique dans GLM a-t-elle garanti la convergence vers les maxima mondiaux?
Mes questions sont: Les modèles linéaires généralisés (GLM) convergent-ils vers un maximum global? Si oui, pourquoi? De plus, quelles contraintes y a-t-il sur la fonction de liaison pour assurer la convexité? Ma compréhension des GLM est qu'ils maximisent une fonction de vraisemblance hautement non linéaire. Ainsi, j'imagine qu'il existe plusieurs …

2
Comment choisir le bon algorithme d'optimisation?
J'ai besoin de trouver le minimum d'une fonction. En lisant les documents sur http://docs.scipy.org/doc/scipy/reference/optimize.html je vois qu'il existe plusieurs algorithmes qui font la même chose, c'est-à-dire trouver le minimum. Comment savoir lequel choisir? une partie de l'algorithme répertorié Minimisez une fonction en utilisant l'algorithme du simplex de descente. Réduisez une …

2
Pourquoi la maximisation des attentes est importante pour les modèles de mélange?
De nombreuses publications mettent l'accent sur la méthode de maximisation des attentes sur les modèles de mélange (mélange de gaussien, modèle de Markov caché, etc.). Pourquoi l'EM est important? EM est juste un moyen d'optimisation et n'est pas largement utilisé comme méthode basée sur un gradient (gradient décent ou méthode …

1
Comment la descente de gradient stochastique pourrait-elle gagner du temps par rapport à la descente de gradient standard?
La descente de gradient standard calculerait le gradient pour l'ensemble des données d'apprentissage. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Pour un nombre prédéfini d'époques, nous calculons d'abord le vecteur de gradient weights_grad de la fonction de perte pour l'ensemble de …

1
Clarification sur la mise en œuvre de la règle Perceptron vs descente de gradient vs mise en œuvre de descente de gradient stochastique
J'ai expérimenté un peu avec différentes implémentations de Perceptron et je veux m'assurer si je comprends bien les "itérations". La règle originale de Perceptron de Rosenblatt D'après ce que je comprends, dans l'algorithme de perceptron classique de Rosenblatt, les poids sont mis à jour simultanément après chaque exemple de formation …

2
Estimation ARIMA à la main
J'essaie de comprendre comment les paramètres sont estimés dans la modélisation ARIMA / Box Jenkins (BJ). Malheureusement, aucun des livres que j'ai rencontrés ne décrit en détail la procédure d'estimation telle que la procédure d'estimation de log-vraisemblance. J'ai trouvé le site Web / matériel pédagogique très utile. Voici l'équation de …


1
Pourquoi ne puis-je pas faire correspondre la sortie glmer (famille = binomiale) avec l'implémentation manuelle de l'algorithme de Gauss-Newton?
Je voudrais faire correspondre les sorties de lmer (vraiment glmer) avec un exemple binomial jouet. J'ai lu les vignettes et je crois comprendre ce qui se passe. Mais apparemment non. Après être resté coincé, j'ai corrigé la "vérité" en termes d'effets aléatoires et je suis allé après l'estimation des effets …


1
Pourquoi est-il important d'inclure un terme de correction de biais pour l'optimiseur Adam pour l'apprentissage en profondeur?
Je lisais sur l' optimiseur Adam pour le Deep Learning et suis tombé sur la phrase suivante dans le nouveau livre Deep Learning de Begnio, Goodfellow et Courtville: Adam inclut des corrections de biais dans les estimations des moments du premier ordre (le terme de momentum) et des moments du …


1
Pourquoi n'utilisons-nous pas des taux d'apprentissage non constants pour un gradient décent pour d'autres choses que les réseaux de neurones?
La littérature sur l'apprentissage en profondeur regorge de trucs astucieux avec l'utilisation de taux d'apprentissage non constants dans la descente de gradient. Des choses comme la décroissance exponentielle, RMSprop, Adagrad, etc. sont faciles à mettre en œuvre et sont disponibles dans tous les packages d'apprentissage en profondeur, mais elles semblent …

1
Probabilité maximale restreinte avec un rang de colonne inférieur à la totalité de
Cette question traite de l'estimation du maximum de vraisemblance restreint (REML) dans une version particulière du modèle linéaire, à savoir: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), où X(α)X(α)X(\alpha) est une matrice ( n×pn×pn \times p ) paramétrée par α∈Rkα∈Rk\alpha \in \mathbb R^k , tout comme Σ(α)Σ(α)\Sigma(\alpha) …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.