Questions marquées «least-squares»

Fait référence à une technique d'estimation générale qui sélectionne la valeur du paramètre pour minimiser la différence au carré entre deux quantités, telles que la valeur observée d'une variable, et la valeur attendue de cette observation conditionnée à la valeur du paramètre. Les modèles linéaires gaussiens sont ajustés par les moindres carrés et les moindres carrés est l'idée sous-jacente à l'utilisation de l'erreur quadratique moyenne (MSE) comme moyen d'évaluer un estimateur.


3
Pourquoi l’estimation de la crête devient-elle meilleure que celle des MCO en ajoutant une constante à la diagonale?
Je comprends que l’estimation de la régression de crête est la qui minimise la somme résiduelle du carré et une pénalité sur la taille deβββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Cependant, je ne comprends pas tout à fait la signification du fait que …

3
Erreur absolue moyenne OU erreur quadratique moyenne?
Pourquoi utiliser l'erreur quadratique moyenne (RMSE) au lieu de l'erreur absolue moyenne (MAE)? salut J'ai étudié l'erreur générée dans un calcul - j'avais initialement calculé l'erreur en tant qu'erreur quadratique moyenne normalisée racine. En regardant de plus près, je vois les effets de la quadrature de l'erreur qui donne plus …
59 least-squares  mean  rms  mae 

3
D'où vient l'idée fausse selon laquelle Y doit être normalement distribué?
Des sources apparemment réputées affirment que la variable dépendante doit être distribuée normalement: Les hypothèses du modèle: YYY est normalement distribué, les erreurs sont normalement distribuées, ei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2) , et indépendant, et XXX est fixé, et une variance constante σ2σ2\sigma^2 . Penn State, STAT 504 Analyse de données discrètes …




5
Comment dériver la solution de régression de crête?
J'ai des problèmes avec la dérivation de la solution pour la régression de crête. Je connais la solution de régression sans le terme de régularisation: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Mais après avoir ajouté le terme L2 à la fonction de coût, comment se fait-il que la solution devienneλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX …

4
Pourquoi la fonction sigmoïde au lieu de rien d'autre?
Pourquoi la fonction sigmoïde standard de facto, , est-elle si populaire dans les réseaux de neurones (non profonds) et la régression logistique?11 + e- x11+e−x\frac{1}{1+e^{-x}} Pourquoi n'utilisons-nous pas beaucoup d'autres fonctions pouvant être dérivées, avec un temps de calcul plus rapide ou une décroissance plus lente (de sorte qu'un gradient …


8
Est-il valide d’inclure une mesure de référence en tant que variable de contrôle lors du test de l’effet d’une variable indépendante sur les scores de changement?
J'essaie d'exécuter une régression OLS: DV: Variation du poids sur un an (poids initial - poids final) IV: Que vous exerciez ou non. Cependant, il semble raisonnable que les personnes plus lourdes perdent plus de poids par unité d'exercice que les personnes plus minces. Ainsi, je voulais inclure une variable …

1
Preuve que les coefficients dans un modèle OLS suivent une distribution t avec (nk) degrés de liberté
Contexte Supposons que nous ayons un modèle des moindres carrés ordinaires où nous avons coefficients dans notre modèle de régression, kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} où est un vecteur de coefficients, est la matrice de conception définie parββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 …

3
Comment effectuer une régression orthogonale (total des moindres carrés) via l'ACP?
J'utilise toujours lm()en R pour effectuer une régression linéaire de sur . Cette fonction renvoie un coefficient tel queyyyxxxββ\betay=βx.y=βx.y = \beta x. Aujourd'hui, j'ai appris le nombre total de moindres carrés et cette princomp()fonction (analyse en composantes principales, ACP) peut être utilisée pour l'exécuter. Cela devrait être bon pour moi …

1
Calcul de la répétabilité des effets d'un modèle lmer
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
Pourquoi RSS est-il distribué chi carré times np?
Je voudrais comprendre pourquoi, sous le modèle OLS, le RSS (somme résiduelle des carrés) est distribué χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p) ( ppp étant le nombre de paramètres dans le modèle, le nombre d'observations).nnn Je m'excuse d'avoir posé une question aussi fondamentale, mais il semble que je ne puisse pas trouver la réponse …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.