Statistiques et Big Data

5

Comment tester et éviter la multicolinéarité dans un modèle linéaire mixte?

J'utilise actuellement des modèles linéaires à effets mixtes. J'utilise le package "lme4" dans R. Mes modèles prennent la forme: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) Avant d'exécuter mes modèles, j'ai vérifié la possible multicolinéarité entre les prédicteurs. Je l'ai fait par: Faire une trame …

26 r correlation mixed-model lme4-nlme multicollinearity

3

Pourquoi utiliser les estimations Lasso sur les estimations OLS sur le sous-ensemble de variables identifié par Lasso?

Pour la régression Lasso supposons que la meilleure solution (erreur de test minimale par exemple) sélectionne k fonctionnalités, de sorte que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k …

26 regression feature-selection lasso regularization

2

Ai-je correctement spécifié mon modèle dans lmer?

J'ai parcouru de nombreux sites d'aide et je ne sais toujours pas comment spécifier des termes imbriqués plus compliqués dans un modèle mixte. Je suis également confus en ce qui concerne l'utilisation de :et /et |en spécifiant les interactions et l'imbrication avec des facteurs aléatoires à l'aide lmer()du lme4package dans …

26 r mixed-model lme4-nlme

2

Que signifie réellement la valeur logit?

J'ai un modèle logit qui propose un nombre compris entre 0 et 1 pour de nombreux cas, mais comment pouvons-nous interpréter cela? Prenons un cas avec un logit de 0,20 Pouvons-nous affirmer qu'il existe une probabilité de 20% qu'un cas appartient au groupe B par rapport au groupe A? est-ce …

26 regression logistic logit

4

Validation croisée interne et externe et sélection du modèle

Je crois comprendre qu'avec la validation croisée et la sélection de modèles, nous essayons de résoudre deux choses: P1 . Estimer la perte attendue sur la population lors de la formation avec notre échantillon P2 . Mesurer et rendre compte de notre incertitude sur cette estimation (variance, intervalles de confiance, …

26 estimation cross-validation references

5

Inclusion d'une variable dépendante décalée dans la régression

Je suis très confus quant à savoir s'il est légitime d'inclure une variable dépendante retardée dans un modèle de régression. Fondamentalement, je pense que si ce modèle se concentre sur la relation entre le changement de Y et d'autres variables indépendantes, l'ajout d'une variable dépendante décalée dans le côté droit …

26 regression lags misspecification

2

Dans caret quelle est la vraie différence entre cv et cv répété?

Ceci est similaire à la question des méthodes de rééchantillonnage de Caret , bien que cela n'ait jamais vraiment répondu à cette partie de la question d'une manière convenue. la fonction train de caret offre cvet repeatedcv. Quelle est la différence de dire faire: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 …

26 r machine-learning caret

3

Prérequis pour la comparaison de modèles AIC

Quelles sont exactement les conditions préalables qui doivent être remplies pour que la comparaison des modèles AIC fonctionne? Je viens de contourner cette question lorsque j'ai fait une comparaison comme celle-ci: > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] …

26 regression model-selection aic model-comparison nested-models

6

Existe-t-il un «bonjour, monde» pour les graphiques statistiques?

En programmation informatique, il existe un premier programme classique pour apprendre / enseigner une nouvelle langue ou un nouveau système, appelé "bonjour le monde". http://en.wikipedia.org/wiki/Hello_world_program Existe-t-il une première visualisation de données classique pour utiliser un package graphique? Si oui, c'est quoi? Et sinon, quels seraient les bons candidats?

26 data-visualization

4

Prédire avec des fonctionnalités continues et catégoriques

Certaines techniques de modélisation prédictive sont plus conçues pour gérer des prédicteurs continus, tandis que d'autres sont meilleures pour gérer des variables catégorielles ou discrètes. Il existe bien sûr des techniques pour transformer un type en un autre (discrétisation, variables muettes, etc.). Cependant, existe-t-il des techniques de modélisation prédictive conçues …

26 classification predictive-models categorical-data continuous-data discrete-data

1

PCA, LDA, CCA et PLS

Quel est le lien entre PCA, LDA, CCA et PLS? Ils semblent tous "spectraux" et algébriques linéaires et très bien compris (disons plus de 50 ans de théorie construits autour d'eux). Ils sont utilisés pour des choses très différentes (PCA pour la réduction de la dimensionnalité, LDA pour la classification, …

26 pca discriminant-analysis partial-least-squares canonical-correlation

6

Estimation du même modèle sur plusieurs séries chronologiques

J'ai une formation novice dans les séries chronologiques (certaines estimations / prévisions ARIMA) et je suis confronté à un problème que je ne comprends pas complètement. Toute aide serait grandement appréciée. J'analyse plusieurs séries chronologiques, toutes sur le même intervalle de temps et toutes de la même fréquence, décrivant toutes …

26 time-series

9

Que font les statisticiens qui ne peuvent pas être automatisés?

Le logiciel rendra-t-il finalement les statisticiens obsolètes? Que fait-on qui ne peut pas être programmé dans un ordinateur?

26 machine-learning dataset careers

1

Équivalence entre les moindres carrés et MLE dans le modèle gaussien

Je suis nouveau dans le Machine Learning et j'essaie de l'apprendre par moi-même. Récemment, je lisais quelques notes de cours et j'avais une question de base. La diapositive 13 indique que "l'estimation du moindre carré est identique à l'estimation du maximum de vraisemblance dans un modèle gaussien". Il semble que …

26 regression bayesian least-squares

3

Comment calculer l'intervalle de confiance du rapport de deux moyennes normales

Je veux dériver les limites de l' intervalle de confiance de pour le rapport de deux moyennes. Supposons que X 1 ∼ N ( θ 1 , σ 2 ) et X 2 ∼ N ( θ 2 , σ 2 ) étant indépendants, le rapport moyen Γ = θ …

26 normal-distribution mean