Statistiques et Big Data regression

3

Un exemple: régression LASSO utilisant glmnet pour les résultats binaires

Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

7

Quel est l’avantage de briser une variable prédictive continue?

Je me demande quel est l'intérêt de prendre une variable prédictive continue et de la diviser (par exemple, en quintiles), avant de l'utiliser dans un modèle. Il me semble que, en regroupant la variable, nous perdons des informations. Est-ce simplement pour que nous puissions modéliser des effets non linéaires? Si …

78 regression modeling continuous-data binning regression-strategies

3

Quand R carré est-il négatif?

D'après ce que je comprends, ne peut pas être négatif car c'est le carré de R. Cependant, j'ai exécuté une régression linéaire simple dans SPSS avec une seule variable indépendante et une variable dépendante. Ma sortie SPSS me donne une valeur négative pour . Si je devais calculer cela manuellement …

78 regression spss r-squared

5

Quelles sont les alternatives modernes et facilement utilisables à la régression pas à pas?

J'ai un ensemble de données avec environ 30 variables indépendantes et j'aimerais construire un modèle linéaire généralisé (GLM) pour explorer la relation entre elles et la variable dépendante. Je suis conscient que la méthode qui m'a été enseignée pour cette situation, la régression par étapes, est maintenant considérée comme un …

76 regression generalized-linear-model model-selection stepwise-regression

3

Pourquoi le Lasso fournit-il une sélection variable?

Je lisais Éléments d'apprentissage statistique et j'aimerais savoir pourquoi le lasso fournit une sélection de variables et non la régression de crête. Les deux méthodes minimisent la somme des carrés résiduels et ont une contrainte sur les valeurs possibles des paramètres . Pour le lasso, la contrainte est , alors …

76 regression feature-selection lasso regularization

3

Pourquoi la régression logistique n'est-elle pas appelée classification logistique?

Étant donné que la régression logistique est un statistique modèle de classification prises avec des variables dépendantes, pourquoi pas appelé Classification logistique ? Le nom "Régression" ne devrait-il pas être réservé aux modèles traitant des variables dépendantes continues?

75 regression machine-learning logistic classification terminology

3

Diagnostic pour la régression logistique?

Pour la régression linéaire, nous pouvons vérifier les tracés de diagnostic (tracés de résidus, tracés QQ normaux, etc.) pour vérifier si les hypothèses de régression linéaire sont violées. Pour la régression logistique, j'ai du mal à trouver des ressources qui expliquent comment diagnostiquer l'ajustement du modèle de régression logistique. En …

74 regression logistic

6

Pourquoi utiliser la descente sur gradient pour la régression linéaire, lorsqu'une solution mathématique de forme fermée est disponible?

Je suis les cours d'apprentissage automatique en ligne et j'ai appris comment utiliser Gradient Descent pour calculer les valeurs optimales de l'hypothèse. h(x) = B0 + B1X pourquoi nous devons utiliser Gradient Descent si nous pouvons facilement trouver les valeurs avec la formule ci-dessous? Cela semble simple et facile aussi. …

74 regression machine-learning gradient-descent

9

Comment les valeurs aberrantes devraient-elles être traitées dans l'analyse de régression linéaire?

Souvent, un analyste statistique se voit remettre un ensemble de données et se voit demander d’ajuster un modèle à l’aide d’une technique telle que la régression linéaire. Très souvent, le jeu de données est accompagné d'un avertissement similaire à celui-ci: "Oh oui, nous nous sommes trompés en collectant certains de …

73 regression outliers

7

Règles empiriques pour la taille minimale de l'échantillon pour la régression multiple

Dans le cadre d'une proposition de recherche en sciences sociales, on m'a posé la question suivante: J'ai toujours choisi 100 + m (m étant le nombre de prédicteurs) lors de la détermination de la taille minimale de l'échantillon pour la régression multiple. Est-ce approprié? Je reçois beaucoup de questions similaires, …

72 regression sample-size power-analysis rule-of-thumb

2

Résolution de paramètres de régression dans une descente en forme fermée par rapport à un gradient

Dans son cours d'apprentissage automatique, Andrew Ng introduit la régression linéaire et la régression logistique, et montre comment ajuster les paramètres du modèle à l'aide de la méthode de la méthode de Newton et de la méthode de descente par gradient. Je sais que la descente sur gradient peut être …

72 regression machine-learning logistic gradient-descent

10

Qu'est-ce qu'une liste complète des hypothèses habituelles pour la régression linéaire?

Quelles sont les hypothèses habituelles pour la régression linéaire? Incluent-ils: une relation linéaire entre la variable indépendante et la variable dépendante erreurs indépendantes distribution normale des erreurs homoscédasticité Y en a-t-il d'autres?

72 regression assumptions

8

Générer une variable aléatoire avec une corrélation définie avec une ou plusieurs variables existantes

Pour une étude de simulation , je dois générer des variables aléatoires qui montrent une corrélation prefined (population) à une variable existante .YYY J'ai examiné les Rpackages copulaet ceux CDVinequi peuvent produire des distributions multivariées aléatoires avec une structure de dépendance donnée. Cependant, il n'est pas possible de fixer l'une …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

4

Comment visualiser ce que fait l'analyse de corrélation canonique (par rapport à l'analyse de composante principale)?

L'analyse canonique de corrélation (CCA) est une technique liée à l'analyse en composantes principales (ACP). Bien qu'il soit facile d'enseigner l'ACP ou la régression linéaire à l'aide d'un nuage de points (voir quelques milliers d'exemples sur la recherche d'images dans Google), je n'ai pas vu un exemple intuitif similaire à …

70 regression data-visualization pca canonical-correlation geometry

12

Quelles sont les idées fausses les plus courantes sur la régression linéaire?

Je suis curieux de savoir, pour ceux d'entre vous qui ont une vaste expérience de la collaboration avec d'autres chercheurs, quelles sont les idées fausses les plus courantes sur la régression linéaire que vous rencontrez? Je pense qu’il peut être utile de penser à l’avance aux idées fausses courantes afin …

70 regression multiple-regression

Questions marquées «regression»