Statistiques et Big Data categorical-data

5

Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Les degrés de liberté peuvent-ils être un nombre non entier?

Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

Prédire avec des fonctionnalités continues et catégoriques

Certaines techniques de modélisation prédictive sont plus conçues pour gérer des prédicteurs continus, tandis que d'autres sont meilleures pour gérer des variables catégorielles ou discrètes. Il existe bien sûr des techniques pour transformer un type en un autre (discrétisation, variables muettes, etc.). Cependant, existe-t-il des techniques de modélisation prédictive conçues …

26 classification predictive-models categorical-data continuous-data discrete-data

3

Interprétation des termes d'interaction dans la régression logit avec des variables catégorielles

J'ai des données d'une expérience d'enquête dans laquelle les répondants ont été assignés au hasard à l'un des quatre groupes: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 Bien que les trois groupes de traitement varient légèrement dans le stimulus appliqué, la principale distinction qui m'importe est entre …

25 r logistic categorical-data interaction interpretation

1

Régression avec uniquement des variables catégorielles

Est-il possible d'effectuer une régression si toutes les variables dépendantes et indépendantes sont des variables catégorielles?

24 regression logistic categorical-data

1

Comment visualiser une énorme table de contingence clairsemée?

J'ai deux variables: le nom du médicament (DN) et les événements indésirables (AE) correspondants, qui se trouvent dans une relation plusieurs à plusieurs. Il y a 33 556 noms de médicaments et 9 516 événements indésirables. La taille de l'échantillon est d'environ 5,8 millions d'observations. Je veux étudier et comprendre …

24 r categorical-data data-visualization large-data association-measure

3

L'heure est-elle une variable catégorielle?

"Heure du jour" où la valeur peut être 0, 1, 2, ..., 23 est-elle une variable catégorielle? Je serais tenté de dire non, car 5, par exemple, est «plus proche» de 4 ou 6 que de 3 ou 7. Par contre, il y a la discontinuité entre 23 et 0. …

24 categorical-data circular-statistics

3

Distribution binomiale négative vs distribution binomiale

Quelle est la différence entre la distribution binomiale négative et la distribution binomiale? J'ai essayé de lire en ligne et j'ai trouvé que la distribution binomiale négative est utilisée lorsque les points de données sont discrets, mais je pense que même la distribution binomiale peut être utilisée pour les points …

22 categorical-data data-mining binomial negative-binomial

3

Pourquoi devons-nous simuler des variables catégorielles

Je ne sais pas pourquoi nous devons simuler des variables catégorielles. Par exemple, si j'ai une variable catégorielle avec quatre valeurs possibles 0,1,2,3, je peux la remplacer par deux dimensions. Si la variable avait la valeur 0, elle aurait 0,0 dans les deux dimensions, si elle en avait 3, elle …

22 categorical-data categorical-encoding

1

Suppression d'une des colonnes lors de l'utilisation d'un codage à chaud

Ma compréhension est que dans l'apprentissage automatique, cela peut être un problème si votre ensemble de données a des fonctionnalités hautement corrélées, car elles codent efficacement les mêmes informations. Récemment, quelqu'un a souligné que lorsque vous effectuez un codage à chaud sur une variable catégorielle, vous vous retrouvez avec des …

22 regression machine-learning categorical-data discrete-data categorical-encoding

8

Comment pouvez-vous visualiser la relation entre 3 variables catégorielles?

J'ai un ensemble de données avec trois variables catégorielles et je veux visualiser la relation entre les trois dans un graphique. Des idées? Actuellement, j'utilise les trois graphiques suivants: Chaque graphique correspond à un niveau de dépression de base (léger, modéré, sévère). Ensuite, dans chaque graphique, j'examine la relation entre …

21 r data-visualization categorical-data

4

Comment projeter un nouveau vecteur sur l'espace PCA?

Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

1

Régression pour des variables indépendantes catégorielles et une variable dépendante continue

Je viens de réaliser que j'ai toujours travaillé un problème de régression où les variables indépendantes étaient toujours numériques. Puis-je utiliser la régression linéaire dans le cas où toutes les variables indépendantes sont catégoriques?

20 regression categorical-data

4

Quelles sont les valeurs correctes pour la précision et le rappel dans les cas de bord?

La précision est définie comme: p = true positives / (true positives + false positives) Est - il exact que, true positiveset false positivesapproche 0, la précision approche 1? Même question pour rappel: r = true positives / (true positives + false negatives) J'implémente actuellement un test statistique où j'ai …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

Importance du prédicteur catégorique dans la régression logistique

J'ai du mal à interpréter les valeurs z pour les variables catégorielles dans la régression logistique. Dans l'exemple ci-dessous, j'ai une variable catégorielle avec 3 classes et selon la valeur z, CLASS2 peut être pertinent tandis que les autres ne le sont pas. Mais qu'est-ce que cela signifie maintenant? Que …

19 r logistic categorical-data feature-selection categorical-encoding

Questions marquées «categorical-data»