Statistiques et Big Data modeling

1

Trajectoires des coefficients - comparaison de la crête, du lasso et de la régression nette élastique

Je voudrais comparer des modèles sélectionnés avec faîtage, lasso et filet élastique. La figure ci-dessous montre les chemins des coefficients en utilisant les 3 méthodes: crête (figure A, alpha = 0), lasso (figure B; alpha = 1) et filet élastique (figure C; alpha = 0,5). La solution optimale dépend de …

13 r multiple-regression modeling regularization

1

Modèles additifs généralisés (GAM), interactions et covariables

J'ai exploré un certain nombre d'outils de prévision et j'ai trouvé que les modèles additifs généralisés (GAM) avaient le plus de potentiel à cette fin. Les GAM sont super! Ils permettent de spécifier très succinctement des modèles complexes. Cependant, cette même concision me cause une certaine confusion, en particulier en …

12 r modeling gam mgcv

5

Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?

J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Modélisation lorsque la variable dépendante a un «seuil»

Toutes mes excuses à l'avance si l'une des terminologies que j'utilise est incorrecte. J'accueillerais toute correction. Si ce que je décris comme une «coupure» porte un nom différent, faites-le moi savoir et je pourrai mettre à jour la question. La situation qui m'intéresse est la suivante: vous avez des variables …

12 regression modeling survival censoring

1

Critères de sélection du «meilleur» modèle dans un modèle de Markov caché

J'ai un ensemble de données de série chronologique auquel j'essaie d'adapter un modèle de Markov caché (HMM) afin d'estimer le nombre d'états latents dans les données. Mon pseudo-code pour ce faire est le suivant: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = …

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

1

Différences entre PROC Mixed et lme / lmer en R - degrés de liberté

Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les différents tests diffèrent …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

Modélisation paramétrique de la variance des données de comptage

Je cherche à modéliser certaines données, mais je ne sais pas quel type de modèle je peux utiliser. J'ai des données de comptage et je veux un modèle qui donnera des estimations paramétriques de la moyenne et de la variance des données. Autrement dit, j'ai divers facteurs prédictifs et je …

12 variance modeling count-data overdispersion gamlss

1

Test exact de Fisher et distribution hypergéométrique

Je voulais mieux comprendre le test exact du pêcheur, j'ai donc imaginé l'exemple de jouet suivant, où f et m correspond à l'homme et à la femme, et n et y correspond à la "consommation de soda" comme ceci: > soda_gender f m n 0 5 y 5 0 Évidemment, …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

ajustement d'une fonction exponentielle en utilisant les moindres carrés vs le modèle linéaire généralisé vs les moindres carrés non linéaires

J'ai un ensemble de données qui représente la décroissance exponentielle. Je voudrais adapter une fonction exponentielle à ces données. J'ai essayé de transformer la variable de réponse en journal puis d'utiliser les moindres carrés pour ajuster une ligne; utiliser un modèle linéaire généralisé avec une fonction de liaison logarithmique et …

12 modeling generalized-linear-model least-squares nonlinear-regression curve-fitting

4

Modèles linéaires logarithmiques

Quelqu'un peut-il expliquer pourquoi nous utilisons les modèles logarithmiques linéaires en termes très profanes? Je viens du milieu de l'ingénierie, et cela s'avère vraiment être un sujet difficile pour moi, les statistiques. Je serai reconnaissant pour une réponse.

12 modeling log-linear

1

Quand dois-je arrêter de chercher un modèle?

Je recherche un modèle entre les cours de l'énergie et la météo. J'ai le prix du MWatt acheté entre les pays d'Europe, et beaucoup de valeurs sur la météo (fichiers Grib). Chaque heure sur une période de 5 ans (2011-2015). Prix / jour C'est par jour pendant un an. J'ai …

11 time-series forecasting predictive-models modeling large-data

5

Mesurer la régression à la moyenne dans les home runs

Quiconque suit le baseball a probablement entendu parler de la performance de type MVP de nulle part de Jose Bautista de Toronto. Au cours des quatre années précédentes, il a réalisé environ 15 circuits par saison. L'année dernière, il a atteint 54, un nombre dépassé par seulement 12 joueurs dans …

11 r regression modeling

10

Des raisons en plus de la prédiction pour construire des modèles?

Joshua Epstein a écrit un article intitulé "Why Model?" disponible sur http://www.santafe.edu/media/workingpapers/08-09-09-040.pdf dans lequel se trouvent 16 raisons: Expliquer (très distinct de prédire) Guide de collecte des données Illuminez la dynamique du cœur Suggérer des analogies dynamiques Découvrez de nouvelles questions Promouvoir une habitude d'esprit scientifique Résultats liés (fourchette) à …

11 modeling

1

R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

7

Éviter la discrimination sociale dans la construction de modèles

J'ai des questions inspirées du récent scandale du recrutement en Amazonie, où elles ont été accusées de discrimination à l'égard des femmes dans leur processus de recrutement. Plus d'infos ici : Les spécialistes de l'apprentissage automatique d'Amazon.com Inc ont découvert un gros problème: leur nouveau moteur de recrutement n'aimait pas …

10 predictive-models modeling model

Questions marquées «modeling»