Statistiques et Big Data mean

2

Existe-t-il un exemple de l’inégalité unilatérale de Chebyshev?

Je suis intéressé par la version unilatérale suivante de Cantelli de l'inégalité de Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. En gros, si vous connaissez la moyenne et la variance de la population, vous pouvez calculer la limite supérieure de la …

32 probability mathematical-statistics probability-inequalities mean

4

Quels sont les avantages relatifs des données Winsorizing vs. Trimming?

Winsoriser les données signifie remplacer les valeurs extrêmes d'un ensemble de données par une certaine valeur de centile à chaque extrémité, tandis que le rognage ou la troncature implique la suppression de ces valeurs extrêmes. Je vois toujours les deux méthodes discutées comme une option viable pour atténuer l'effet des …

31 standard-deviation mean truncation trimmed-mean winsorizing

8

Remplacer les valeurs aberrantes par une moyenne

Cette question a été posée par mon ami qui n'est pas averti d'Internet. Je n'ai aucun fond de statistiques et j'ai cherché autour d'Internet pour cette question. La question est: est-il possible de remplacer les valeurs aberrantes par une valeur moyenne? si c'est possible, existe-t-il des références de livres / …

31 mean outliers robust winsorizing

5

Quelle est la différence entre «valeur moyenne» et «moyenne»?

Wikipédia explique: Pour un ensemble de données, la moyenne est la somme des valeurs divisée par le nombre de valeurs. Cette définition correspond cependant à ce que j'appelle «moyen» (du moins c'est ce dont je me souviens avoir appris). Wikipédia cite encore une fois: Il existe d'autres mesures statistiques qui …

31 mean interpretation average

4

Le mode mean = implique-t-il une distribution symétrique?

Je sais que cette question a été posée avec le cas moyenne = médiane, mais je n'ai rien trouvé en rapport avec le mode moyenne =. Si le mode est égal à la moyenne, puis-je toujours conclure qu'il s'agit d'une distribution symétrique? Serai-je obligé de connaître également la médiane de …

30 distributions mean skewness mode symmetry

2

Existe-t-il un intervalle de confiance non paramétrique fiable pour la moyenne d'une distribution asymétrique?

Des distributions très asymétriques telles que le log-normal n'entraînent pas des intervalles de confiance bootstrap précis. Voici un exemple montrant que les zones arrière gauche et droite sont loin de la valeur idéale de 0,025, quelle que soit la méthode d'amorçage que vous essayez dans R: require(boot) n <- 25 …

30 confidence-interval nonparametric mean bootstrap median

5

Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

10

Régression vers la moyenne contre l'erreur du joueur

D'une part, j'ai la régression à la moyenne et d'autre part j'ai l' erreur du joueur . Le sophisme de Gambler est défini par Miller et Sanjurjo (2019) comme «la croyance erronée que les séquences aléatoires ont une tendance systématique au renversement, c'est-à-dire que les séquences de résultats similaires sont …

29 regression mean fallacy gambling

1

Les degrés de liberté peuvent-ils être un nombre non entier?

Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

En quoi trouver le centroïde est-il différent de trouver la moyenne?

Lors de la mise en cluster hiérarchique, on peut utiliser de nombreuses métriques pour mesurer la distance entre les clusters. Deux de ces mesures impliquent le calcul des centroïdes et des moyennes des points de données dans les grappes. Quelle est la différence entre la moyenne et le centroïde? N'est-ce …

26 clustering mean

3

Comment calculer l'intervalle de confiance du rapport de deux moyennes normales

Je veux dériver les limites de l' intervalle de confiance de pour le rapport de deux moyennes. Supposons que X 1 ∼ N ( θ 1 , σ 2 ) et X 2 ∼ N ( θ 2 , σ 2 ) étant indépendants, le rapport moyen Γ = θ …

26 normal-distribution mean

3

Que peut-on conclure sur les données lorsque la moyenne arithmétique est très proche de la moyenne géométrique?

Y a-t-il quelque chose d'important dans une moyenne géométrique et une moyenne arithmétique qui se rapprochent très près, disons ~ 0,1%? Quelles conjectures peut-on faire sur un tel ensemble de données? J'ai travaillé sur l'analyse d'un ensemble de données et je remarque que, ironiquement, les valeurs sont très, très proches. …

24 descriptive-statistics mean geometric-mean

4

Comment savoir si ma distribution de données est symétrique?

Je sais que si la médiane et la moyenne sont approximativement égales, cela signifie qu'il y a une distribution symétrique, mais dans ce cas particulier, je ne suis pas certain. La moyenne et la médiane sont assez proches (seulement une différence de 0,487 m / gallon), ce qui m'amènerait à …

23 distributions mean skewness median qq-plot

4

Pourquoi la moyenne a-t-elle tendance à être plus stable dans différents échantillons que la médiane?

La section 1.7.2 de Découvrir les statistiques à l'aide de R par Andy Fields, et tout, tout en énumérant les vertus de la moyenne par rapport à la médiane, indique: ... la moyenne a tendance à être stable dans différents échantillons. Ceci après avoir expliqué les nombreuses vertus de la …

22 mean median

5

Qu'est-ce qui rend la moyenne de certaines distributions non définie?

De nombreux fichiers PDF vont de moins à l'infini positif, mais certains moyens sont définis et d'autres non. Quel trait commun rend certains calculables?

21 distributions mean

Questions marquées «mean»