Statistiques et Big Data descriptive-statistics

5

Quelle est la différence entre normalisation et normalisation?

Au travail, nous en discutions, mon patron n’ayant jamais entendu parler de la normalisation. En algèbre linéaire, la normalisation semble faire référence à la division d'un vecteur par sa longueur. Et en statistique, la normalisation semble faire référence à la soustraction d’une moyenne puis à sa division par son SD. …

118 descriptive-statistics normalization standardization

5

Centile vs quantile vs quartile

Quelle est la différence entre les trois termes ci-dessous? percentile quantile quartile

83 descriptive-statistics quantiles median percentage

3

Un exemple: régression LASSO utilisant glmnet pour les résultats binaires

Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

4

Comment "additionner" un écart type?

J'ai une moyenne mensuelle pour une valeur et un écart-type correspondant à cette moyenne. Je calcule maintenant la moyenne annuelle comme étant la somme des moyennes mensuelles. Comment puis-je représenter l'écart type de la moyenne cumulée? Par exemple, en considérant la production d'un parc éolien: Month MWh StdDev January 927 …

68 standard-deviation descriptive-statistics

8

Quelles sont les bonnes statistiques de base à utiliser pour les données ordinales?

J'ai quelques données ordinales obtenues à partir de questions d'enquête. Dans mon cas, ce sont des réponses de type Likert (fortement en désaccord - en désaccord - neutre - en accord - en parfait accord). Dans mes données, ils sont codés 1-5. Je ne pense pas que les moyens signifient …

67 descriptive-statistics likert ordinal-data

11

Que signifie orthogonal dans le contexte des statistiques?

Dans d'autres contextes, orthogonal signifie "à angle droit" ou "perpendiculaire". Que signifie orthogonal dans un contexte statistique? Merci pour toute clarification.

60 descriptive-statistics

8

Successeur moderne de l'analyse exploratoire des données par Tukey?

J'ai lu le livre de Tukey "Exploratory Data Analysis". Écrit en 1977, le livre met l’accent sur les méthodes papier / crayon. Existe-t-il un successeur plus «moderne» qui prenne en compte le fait que nous pouvons maintenant tracer instantanément de grands ensembles de données?

52 data-visualization references descriptive-statistics eda

5

Corrélations entre variables continues et catégorielles (nominales)

J'aimerais trouver la corrélation entre une variable continue (variable dépendante) et une variable catégorique (nominale: genre, variable indépendante). Les données continues ne sont pas normalement distribuées. Auparavant, je l'avais calculé en utilisant Spearman . Cependant, on m'a dit que ce n'est pas correct.ρρ\rho Lors de mes recherches sur Internet, j’ai …

42 correlation categorical-data descriptive-statistics biostatistics spearman-rho

3

Relation empirique entre moyenne, médiane et mode

Pour une distribution unimodale qui est modérément biaisée, nous avons la relation empirique suivante entre la moyenne, la médiane et le mode: (Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Comment cette relation a-t-elle été dérivée? Karl Pearson a-t-il tracé des milliers de …

40 distributions mathematical-statistics descriptive-statistics history

8

Présentation graphique des données (résumé) dans R

Je suis sûr que je suis déjà tombé sur une fonction de ce type dans un package R, mais après une longue recherche sur Google, il me semble impossible de la trouver nulle part. La fonction à laquelle je pense a produit un résumé graphique pour une variable qui lui …

39 r data-visualization descriptive-statistics eda

6

Pourquoi le dénominateur de l'estimateur de covariance ne serait-il pas n-2 plutôt que n-1?

Le dénominateur de l'estimateur de variance (non biaisé) est car il y a observations et un seul paramètre est estimé.nn−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Dans le même esprit, je me demande pourquoi le dénominateur de la covariance ne serait pas lorsque deux paramètres sont estimés?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

36 self-study variance covariance descriptive-statistics unbiased-estimator

3

Pourquoi y a-t-il une différence entre le calcul manuel d'un intervalle de confiance de 95% selon la régression logistique et l'utilisation de la fonction confint () dans R?

Cher tout le monde - J'ai remarqué quelque chose d'étrange que je ne peux pas expliquer, pouvez-vous? En résumé: l'approche manuelle pour calculer un intervalle de confiance dans un modèle de régression logistique et la fonction R confint()donnent des résultats différents. Je suis passé par la régression logistique appliquée de …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

7

Comment interpréter le coefficient de variation?

J'essaie de comprendre le coefficient de variation . Lorsque j'essaie de l'appliquer aux deux échantillons de données suivants, je n'arrive pas à comprendre comment interpréter les résultats. Disons que l'échantillon 1 est et l'échantillon 2 est . Ici échantillon 2 échantillon 1 comme vous pouvez le voir.10 , 15 , …

33 descriptive-statistics coefficient-of-variation

5

Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

2

La variation est-elle la même que la variance?

C'est ma première question sur Cross Validated ici, alors s'il vous plaît, aidez-moi même si cela semble trivial :-) Tout d'abord, la question peut être le résultat de différences linguistiques ou peut-être de moi ayant de réelles lacunes dans les statistiques. Néanmoins, le voici: Dans les statistiques démographiques, la variation …

27 variance descriptive-statistics definition

Questions marquées «descriptive-statistics»