Statistiques et Big Data sample

25

Localisation des échantillons de données disponibles gratuitement

Je travaille sur une nouvelle méthode d'analyse et d'analyse de jeux de données pour identifier et isoler les sous-groupes d'une population sans connaître à l'avance les caractéristiques d'aucun sous-groupe. Bien que la méthode fonctionne assez bien avec des échantillons de données artificiels (c'est-à-dire des ensembles de données créés spécifiquement dans …

98 dataset sample population teaching

5

Quelle est la différence entre une population et un échantillon?

Quelle est la différence entre une population et un échantillon? Quelles variables et statistiques communes sont utilisées pour chacune d’elles, et comment se rapportent-elles?

38 standard-deviation variance sample population

3

R: Random Forest lançant NaN / Inf dans l'erreur «appel de fonction étrangère» malgré l'absence de NaN dans l'ensemble de données [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . J'utilise caret pour exécuter une forêt aléatoire validée de façon croisée …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

3

Et si votre échantillon aléatoire n'est clairement pas représentatif?

Que se passe-t-il si vous prenez un échantillon aléatoire et que vous pouvez voir qu'il n'est clairement pas représentatif, comme dans une question récente . Par exemple, que se passe-t-il si la distribution de la population est censée être symétrique autour de 0 et que l'échantillon que vous tirez au …

28 sampling experiment-design inference sample

1

Calcul de la répétabilité des effets d'un modèle lmer

Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Les degrés de liberté peuvent-ils être un nombre non entier?

Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

Comment savoir quel type de distribution représente ces données sur les temps de réponse ping?

J'ai échantillonné un processus du monde réel, les temps de ping du réseau. Le "temps d'aller-retour" est mesuré en millisecondes. Les résultats sont tracés sur un histogramme: Les temps de ping ont une valeur minimale, mais une longue queue supérieure. Je veux savoir de quelle distribution statistique il s'agit et …

22 distributions sample-size sample normality-assumption distribution-identification

2

Quelle est la différence entre la variance d'échantillon et la variance d'échantillonnage?

Quelle est la différence entre la variance d'échantillon et la variance d'échantillonnage? Ils semblent pareils. N'est-ce pas?

15 sampling variance sample

3

Bootstrap: la question du sur-ajustement

Supposons que l'on effectue le bootstrap dit non paramétrique en tirant échantillons de taille n chacun à partir des n observations originales avec remplacement. Je crois que cette procédure équivaut à estimer la fonction de distribution cumulative par le cdf empirique:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function puis obtenir les échantillons de bootstrap en simulant …

14 bootstrap sample-size sample small-sample finite-population

3

Utiliser la longueur moyenne et le poids moyen pour calculer l'IMC moyen?

Est-il valable d'utiliser la longueur moyenne ( ) et le poids moyen ( )) d'une population donnée pour calculer l'indice de masse corporelle moyen ( ) pour cette population?hhhwwwBMI=wh2BMI=wh2BMI = \frac{w}{h^2}

13 mean sample population

4

Une propriété quantitative de la population est-elle un «paramètre»?

Je connais relativement bien la distinction entre les termes statistique et paramètre. Je vois une statistique comme la valeur obtenue en appliquant une fonction aux données d'échantillon. Cependant, la plupart des exemples de paramètres concernent la définition d'une distribution paramétrique. Un exemple courant est la moyenne et l'écart type pour …

13 estimation terminology sample population

1

Grand échantillon asymptotique / théorie - Pourquoi s'en soucier?

J'espère que cette question ne sera pas marquée comme «trop générale» et j'espère qu'une discussion commencera qui bénéficiera à tous. En statistiques, nous passons beaucoup de temps à apprendre de grandes théories d'échantillonnage. Nous souhaitons vivement évaluer les propriétés asymptotiques de nos estimateurs, notamment s’ils sont asymptotiquement impartiaux, asymptotiquement efficaces, …

13 sample asymptotics

1

LARS vs descente coordonnée pour le lasso

Quels sont les avantages et les inconvénients de l'utilisation de LARS [1] par rapport à l'utilisation de la descente de coordonnées pour ajuster la régression linéaire régularisée L1? Je m'intéresse principalement aux aspects de performance (mes problèmes ont tendance à avoir Ndes centaines de milliers et p<20). Cependant, toute autre …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Quelle est la différence entre une variable aléatoire et un échantillon aléatoire?

Ces deux expressions m'ont beaucoup dérouté lorsque j'apprenais les statistiques. Il me semble que ce sont des choses totalement différentes. Un échantillon aléatoire consiste à prélever au hasard un échantillon dans une population, tandis qu'une variable aléatoire est comme une fonction qui mappe l'ensemble de tous les résultats possibles d'une …

13 mathematical-statistics random-variable terminology sample

2

Les compétitions Kaggle sont-elles gagnées par hasard?

Les compétitions de Kaggle déterminent les classements finaux sur la base d'un ensemble de tests en suspens. Un ensemble de test retenu est un échantillon; il peut ne pas être représentatif de la population modélisée. Étant donné que chaque soumission est comme une hypothèse, l'algorithme qui a remporté le concours …

12 machine-learning probability hypothesis-testing sample kaggle

Questions marquées «sample»