Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


8
Calculer le nombre optimal de bacs dans un histogramme
Je suis intéressé à trouver une méthode optimale pour déterminer le nombre de casiers à utiliser dans un histogramme. Mes données devraient aller de 30 à 350 objets au maximum, et en particulier j'essaie d'appliquer un seuillage (comme la méthode d'Otsu) où les "bons" objets, pour lesquels je devrais avoir …


9
Probabilité d'un seul événement futur dans la vie réelle: qu'est-ce que cela signifie quand on dit que «Hillary a 75% de chances de gagner»?
Comme l'élection est un événement ponctuel, ce n'est pas une expérience qui peut être répétée. Alors, que veut dire techniquement l'expression "Hillary a 75% de chances de gagner" ? Je cherche une définition statistiquement correcte, pas une définition intuitive ou conceptuelle. Je suis un amateur de statistiques amateurs qui tente …

7
The Book of Why de Judea Pearl: Pourquoi frappe-t-il les statistiques?
Je lis The Book of Why de Judea Pearl, et cela me passe à la peau 1 . Plus précisément, il me semble qu’il dénigre inconditionnellement les statistiques "classiques" en invoquant un argument de paille selon lequel les statistiques ne sont jamais, jamais en mesure d’enquêter sur les relations de …
79 causality 

5
Quelle est la différence entre l'apprentissage hors politique et l'apprentissage en ligne?
Le site Web sur l' intelligence artificielle définit l'apprentissage hors politique et en ligne comme suit: "Un apprenant hors politique apprend la valeur de la politique optimale indépendamment des actions de l'agent. Q-learning est un apprenant hors politique. Un apprenant en politique découvre la valeur de la politique mise en …

6
Comment savoir si les données sont suffisamment «regroupées» pour que les algorithmes de regroupement produisent des résultats significatifs?
Comment sauriez-vous si vos données (de haute dimension) présentent suffisamment de clustering pour que les résultats de kmeans ou d'un autre algorithme de clustering soient réellement significatifs? Pour l'algorithme k-means en particulier, quelle réduction de la variance au sein d'une grappe devrait-il y avoir pour que les résultats de la …



3
Un exemple: régression LASSO utilisant glmnet pour les résultats binaires
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
Quand R carré est-il négatif?
D'après ce que je comprends, ne peut pas être négatif car c'est le carré de R. Cependant, j'ai exécuté une régression linéaire simple dans SPSS avec une seule variable indépendante et une variable dépendante. Ma sortie SPSS me donne une valeur négative pour . Si je devais calculer cela manuellement …

6
Clustering sur la sortie de t-SNE
J'ai une application où il serait pratique de regrouper un ensemble de données bruyant avant de rechercher des effets de sous-groupe dans les clusters. J'ai d'abord examiné PCA, mais il faut environ 30 composants pour obtenir 90% de la variabilité. Par conséquent, le regroupement sur seulement quelques PC va jeter …


3
Comment produire un joli graphique des résultats de l'analyse par grappes k-means?
J'utilise R pour faire du clustering K-means. J'utilise 14 variables pour exécuter K-means Quelle est une jolie façon de tracer les résultats de K-means? Y a-t-il des implémentations existantes? Avoir 14 variables complique-t-il la représentation graphique des résultats? J'ai trouvé quelque chose appelé GGcluster qui a l'air cool mais qui …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.