La statistique de test du test de Hosmer-Lemeshow (HLT) pour la qualité de l'ajustement (GOF) d'un modèle de régression logistique est définie comme suit: L'échantillon est ensuite divisé en déciles, , on calcule les quantités suivantes par décile:D 1 , D 2 , … , D dd=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , …
J'imagine que plus le coefficient d'une variable est grand, plus le modèle doit pouvoir "basculer" dans cette dimension, ce qui augmente les possibilités d'adaptation au bruit. Bien que je pense avoir une idée raisonnable de la relation entre la variance dans le modèle et les coefficients élevés, je ne comprends …
Je suis un ingénieur en logiciel apprenant à apprendre les machines, en particulier grâce aux cours d'apprentissage automatique d' Andrew Ng . En étudiant la régression linéaire avec la régularisation , j'ai trouvé des termes déroutants: Régression avec régularisation L1 ou régularisation L2 LASSO Régression Ridge Donc mes questions: La …
La régularisation de Tikhonov et la régression de crête sont des termes souvent utilisés comme s'ils étaient identiques. Est-il possible de spécifier exactement quelle est la différence?
J'essaie de comprendre l'origine de la forme incurvée des bandes de confiance associées à une régression linéaire MLS et son lien avec les intervalles de confiance des paramètres de régression (pente et intersection), par exemple (avec R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) Il semble que la bande soit …
Quelqu'un peut-il recommander une bonne exposition de la théorie de la régression des moindres carrés partiels (disponible en ligne) pour quelqu'un qui comprend la SVD et la PCA? J'ai regardé de nombreuses sources en ligne et je n'ai rien trouvé qui avait la bonne combinaison de rigueur et d'accessibilité. J'ai …
Pour le problème de régression, j'ai vu des gens utiliser le «coefficient de détermination» (alias R au carré) pour effectuer la sélection du modèle, par exemple pour trouver le coefficient de pénalité approprié pour la régularisation. Cependant, il est également courant d'utiliser "l'erreur quadratique moyenne" ou "l'erreur quadratique moyenne" comme …
Lors de la régression, par exemple, deux hyper paramètres à choisir sont souvent la capacité de la fonction (par exemple, le plus grand exposant d’un polynôme) et la quantité de régularisation. Pourquoi ne pas simplement choisir une fonction à faible capacité, puis ignorer toute régularisation? De cette façon, il ne …
Je viens de rencontrer le quatuor d'Anscombe (quatre jeux de données contenant des statistiques descriptives presque impossibles à distinguer, mais qui semblent très différents une fois tracés) et je suis curieux de savoir s'il existe d'autres jeux de données plus ou moins connus créés pour démontrer l'importance de certains aspects. …
J'adapte un lm()modèle à un ensemble de données comprenant des indicateurs pour le trimestre financier (T1, T2, T3, Q4 par défaut). En utilisant lm(Y~., data = data) je reçois un NAcomme coefficient pour Q3, et un avertissement indiquant qu’une variable a été exclue à cause de singularités. Dois-je ajouter une …
Un article intitulé «Calcul précis de la variance courante», disponible à l' adresse http://www.johndcook.com/standard_deviation.html, montre comment calculer la moyenne courante, la variance et les écarts types. Existe-t-il des algorithmes dans lesquels les paramètres d'un modèle de régression linéaire ou logistique peuvent être mis à jour de manière "dynamique" de manière …
Je suis un peu confus avec une conférence sur la régression linéaire donnée par Andrew Ng sur Coursera sur l'apprentissage automatique. Là, il a donné une fonction de coût qui minimise la somme des carrés comme suit: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Je comprends où le 1212\frac{1}{2} vient de. Je …
J'ai travaillé sur un problème de régression où l'entrée est une image et l'étiquette est une valeur continue entre 80 et 350. Les images sont de certains produits chimiques après qu'une réaction ait lieu. La couleur qui apparaît indique la concentration d'un autre produit chimique qui reste, et c'est ce …
J'essaie de comprendre pourquoi la sortie de la régression logistique de ces deux bibliothèques donne des résultats différents. J'utilise l'ensemble de données du didacticiel UCLA idre , la prévision admitbasée sur gre, gpaet rank. rankest traité comme une variable catégorielle, il est donc d'abord converti en variable fictive avec rank_1drop. …
Je lis un article très intéressant de Sellers et Shmueli sur les modèles de régression pour les données de comptage. Vers le début (p. 944), ils citent McCullaugh et Nelder (1989) disant que la régression binomiale négative est impopulaire et a un lien canonique problématique. J'ai trouvé le passage référé …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.