Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

3
En stimulant, pourquoi les apprenants sont-ils «faibles»?
Voir aussi une question similaire sur stats.SE . En stimulant les algorithmes tels que AdaBoost et LPBoost, il est connu que les apprenants "faibles" à combiner n'ont qu'à mieux performer que la chance d'être utiles, de Wikipedia: Les classificateurs qu'il utilise peuvent être faibles (c'est-à-dire afficher un taux d'erreur substantiel), …

4
Auto-apprentissage vs éducation enseignée?
Il y a une question avec une intention similaire sur programmers.SE . Cette question a de très bonnes réponses, mais le thème général semble être que sans auto-étude, vous n'obtenez nulle part. De toute évidence, il existe une différence majeure entre la programmation et les statistiques - avec la programmation, …

1
Qu'est-ce qui se cache derrière l'API Google Prediction?
L'API Google Prediction est un service cloud où l'utilisateur peut soumettre des données de formation pour former un classificateur mystérieux et lui demander plus tard de classer les données entrantes, par exemple pour mettre en œuvre des filtres anti-spam ou prédire les préférences de l'utilisateur. Mais qu'est-ce qui se cache …

5
Quels sont les dangers de violer l'hypothèse d'homoscédasticité pour la régression linéaire?
À titre d'exemple, considérons l' ChickWeightensemble de données dans R. La variance augmente évidemment avec le temps, donc si j'utilise une régression linéaire simple comme: m <- lm(weight ~ Time*Diet, data=ChickWeight) Mes questions: Quels aspects du modèle seront discutables? Les problèmes se limitent-ils à extrapoler en dehors de la Timeplage? …

4
Mesures de similitude ou de distance entre deux matrices de covariance
Existe-t-il des mesures de similitude ou de distance entre deux matrices de covariance symétrique (toutes deux ayant les mêmes dimensions)? Je pense ici aux analogues de la divergence KL de deux distributions de probabilités ou de la distance euclidienne entre vecteurs sauf appliquée aux matrices. J'imagine qu'il y aurait pas …






6
Problèmes avec les camemberts
Il semble y avoir une discussion croissante sur les camemberts. Les principaux arguments contre cela semblent être: La zone est perçue avec moins de puissance que la longueur. Les graphiques circulaires ont un rapport point-à-pixel de données très faible Cependant, je pense qu'ils peuvent être d'une certaine manière utiles lors …

1
Calcul de la répétabilité des effets d'un modèle lmer
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 


3
Devenir sérieux avec les séries chronologiques avec R
Si vous pensez en arrière, à quand avez-vous commencé l'analyse des séries chronologiques. Quels outils, packages R et ressources Internet souhaiteriez-vous connaître? Ce que j'essaie de demander, c'est par où commencer? Plus précisément, existe-t-il des ressources pour R qui se résument vraiment à celui qui est "nouveau" à l'analyse de …
28 r  time-series 


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.