Questions marquées «gradient-descent»

La descente en gradient est un algorithme d'optimisation itérative de premier ordre. Pour trouver un minimum local d'une fonction par descente de gradient, on fait des pas proportionnels au négatif du gradient (ou du gradient approximatif) de la fonction au point courant. Pour la descente de gradient stochastique, il existe également la balise [sgd].



2
Est-il possible d'évaluer GLM en Python / scikit-learn en utilisant les distributions de Poisson, Gamma ou Tweedie comme famille pour la distribution d'erreur?
J'essaie d'apprendre un peu Python et Sklearn, mais pour mon travail, j'ai besoin d'exécuter des régressions qui utilisent des distributions d'erreur des familles Poisson, Gamma et surtout Tweedie. Je ne vois rien dans la documentation à leur sujet, mais ils se trouvent dans plusieurs parties de la distribution R, donc …

2
Les réseaux résiduels sont-ils liés à l'augmentation du gradient?
Récemment, nous avons vu l'émergence du réseau neuronal résiduel, dans lequel, chaque couche se compose d'un module de calcul et d'une connexion de raccourci qui préserve l'entrée de la couche telle que la sortie de la ième couche présente: Le réseau permet d'extraire les caractéristiques résiduelles et permet une profondeur …

1
R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?
Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 



1
Un modèle de P (Y | X) peut-il être formé par descente de gradient stochastique à partir d'échantillons non iid de P (X) et d'iid échantillons de P (Y | X)?
Lors de la formation d'un modèle paramétré (par exemple pour maximiser la probabilité) par descente de gradient stochastique sur certains ensembles de données, il est communément supposé que les échantillons d'apprentissage sont tirés de la distribution des données d'apprentissage. Donc, si l'objectif est de modéliser une distribution conjointe , alors …


4
Optimisation de la descente de gradient
J'essaie de comprendre l'optimisation de la descente de gradient dans les algorithmes ML (machine learning). Je comprends qu'il ya une fonction où le coût l'objectif est de minimiser l'erreur y - y . Dans un scénario où les poids w 1 , w 2 sont optimisés pour donner l'erreur minimale …



1
En quoi le gradient augmente-t-il comme la descente en gradient?
Je lis l'entrée utile de Wikipedia sur l'augmentation du gradient ( https://en.wikipedia.org/wiki/Gradient_boosting ), et j'essaie de comprendre comment / pourquoi nous pouvons approximer les résidus par l'étape de descente la plus raide (également appelée pseudo-gradient ). Quelqu'un peut-il me donner l'intuition sur la façon dont la descente la plus raide …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.