Statistiques et Big Data categorical-data

1

Interprétation de la sortie .L & .Q d'un GLM binomial négatif avec des données catégorielles

Je viens de lancer un GLM binomial négatif et voici la sortie: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) …

14 r categorical-data generalized-linear-model interpretation negative-binomial

3

centrage et mise à l'échelle de variables fictives

J'ai un ensemble de données qui contient à la fois des variables catégorielles et des variables continues. On m'a conseillé de transformer les variables catégorielles en variables binaires pour chaque niveau (c'est-à-dire A_level1: {0,1}, A_level2: {0,1}) - je pense que certains ont appelé cela des "variables factices". Cela dit, serait-il …

13 categorical-data data-transformation centering

6

Forêt aléatoire: comment gérer les nouveaux niveaux de facteurs dans l'ensemble de test?

J'essaie de faire des prédictions en utilisant un modèle de forêt aléatoire dans R. Cependant, je reçois des erreurs car certains facteurs ont des valeurs différentes dans l'ensemble de test que dans l'ensemble d'entraînement. Par exemple, un facteur Cat_2a des valeurs 34, 68, 76, etc., dans l'ensemble de test qui …

13 r categorical-data random-forest

2

Comment transformer les données ordinales du questionnaire en données d'intervalle appropriées?

Existe-t-il des méthodes simples pour transformer les données de niveau ordinal en niveau d'intervalle (tout comme il en existe pour l'inverse)? Et exécutable dans Excel ou SPSS? Ayant les données, disons: 10 questions au niveau ordinal (disons échelle 0-5, où 0 = "pas du tout", 5 = "tout le temps"), …

13 categorical-data ordinal-data scales psychometrics

4

Comment résumer les données catégoriques?

J'ai eu du mal avec le problème suivant avec, je l'espère, un problème facile pour les statisticiens (je suis un programmeur avec une certaine exposition aux statistiques). Je dois résumer les réponses à une enquête (pour la direction). L'enquête comprend plus de 100 questions, regroupées dans différents domaines (avec environ …

13 categorical-data data-transformation descriptive-statistics

2

Capturer la saisonnalité en régression multiple pour les données quotidiennes

J'ai des données de vente quotidiennes pour un produit très saisonnier. Je veux saisir la saisonnalité dans le modèle de régression. J'ai lu que si vous avez des données trimestrielles ou mensuelles, dans ce cas, vous pouvez créer respectivement 3 et 11 variables muettes - mais puis-je gérer les données …

13 regression time-series multiple-regression categorical-data

2

Comprendre la création de variables factices (manuelles ou automatisées) dans GLM

Si une variable de facteur (par exemple, le sexe avec les niveaux M et F) est utilisée dans la formule glm, des variables fictives sont créées et peuvent être trouvées dans le résumé du modèle glm avec leurs coefficients associés (par exemple, genderM) Si, au lieu de compter sur R …

13 r generalized-linear-model categorical-data categorical-encoding

2

Meilleures pratiques pour coder les fonctionnalités catégorielles pour les arbres de décision?

Lors du codage des caractéristiques catégorielles pour la régression linéaire, il existe une règle: le nombre de variables muettes doit être inférieur de un au nombre total de niveaux (pour éviter la colinéarité). Existe-t-il une règle similaire pour les arbres de décision (ensachés, boostés)? Je pose cette question car une …

13 categorical-data random-forest cart boosting

1

Régression logistique ordinale en Python

Je voudrais exécuter une régression logistique ordinale en Python - pour une variable de réponse à trois niveaux et avec quelques facteurs explicatifs. Le statsmodelspackage prend en charge les modèles logit binaire et logit multinomial (MNLogit), mais pas le logit ordonné. Étant donné que les mathématiques sous-jacentes ne sont pas …

12 categorical-data python logit ordered-logit statsmodels

3

Estimateur du maximum de vraisemblance de la distribution conjointe, compte tenu uniquement des comptes marginaux

Soit une distribution conjointe de deux variables catégorielles , avec . Supposons que échantillons ont été tirés de cette distribution, mais nous ne recevons que les comptes marginaux, à savoir pour :px,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, Quel est l'estimateur du maximum de vraisemblance pour , étant donné …

12 categorical-data maximum-likelihood joint-distribution marginal maximum-entropy

5

Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?

J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Inversion des baies

J'ai un grand ensemble de données de marché agrégées sur les ventes de vin aux États-Unis et je voudrais estimer la demande de certains vins de haute qualité. Ces parts de marché sont essentiellement dérivées d'un modèle d'utilité aléatoire de la forme où inclut les caractéristiques de produit observées, désigne …

12 logistic estimation multiple-regression categorical-data

3

La procédure à effets fixes de Mundlak est-elle applicable pour la régression logistique avec des variables muettes?

J'ai un ensemble de données avec 8000 grappes et 4 millions d'observations. Malheureusement, mon logiciel statistique, Stata, fonctionne assez lentement lorsque j'utilise sa fonction de données de panel pour la régression logistique: xtlogitmême avec un sous-échantillon de 10%. Cependant, lorsque vous utilisez la logitfonction non- panneau , les résultats apparaissent …

12 logistic categorical-data stata fixed-effects-model

1

Différences entre PROC Mixed et lme / lmer en R - degrés de liberté

Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les différents tests diffèrent …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

3

Manière appropriée de gérer un tableau d'urgence à 3 niveaux

J'ai un tableau de contingence à trois niveaux, avec des données de comptage pour plusieurs espèces, la plante hôte à partir de laquelle elles ont été collectées et si cette collecte a eu lieu un jour de pluie (cela importe vraiment!). En utilisant R, de fausses données pourraient ressembler à …

12 r categorical-data log-linear

Questions marquées «categorical-data»