Statistiques et Big Data

3

En stimulant, pourquoi les apprenants sont-ils «faibles»?

Voir aussi une question similaire sur stats.SE . En stimulant les algorithmes tels que AdaBoost et LPBoost, il est connu que les apprenants "faibles" à combiner n'ont qu'à mieux performer que la chance d'être utiles, de Wikipedia: Les classificateurs qu'il utilise peuvent être faibles (c'est-à-dire afficher un taux d'erreur substantiel), …

28 machine-learning theory boosting

4

Auto-apprentissage vs éducation enseignée?

Il y a une question avec une intention similaire sur programmers.SE . Cette question a de très bonnes réponses, mais le thème général semble être que sans auto-étude, vous n'obtenez nulle part. De toute évidence, il existe une différence majeure entre la programmation et les statistiques - avec la programmation, …

28 self-study references teaching

1

Qu'est-ce qui se cache derrière l'API Google Prediction?

L'API Google Prediction est un service cloud où l'utilisateur peut soumettre des données de formation pour former un classificateur mystérieux et lui demander plus tard de classer les données entrantes, par exemple pour mettre en œuvre des filtres anti-spam ou prédire les préférences de l'utilisateur. Mais qu'est-ce qui se cache …

28 machine-learning

5

Quels sont les dangers de violer l'hypothèse d'homoscédasticité pour la régression linéaire?

À titre d'exemple, considérons l' ChickWeightensemble de données dans R. La variance augmente évidemment avec le temps, donc si j'utilise une régression linéaire simple comme: m <- lm(weight ~ Time*Diet, data=ChickWeight) Mes questions: Quels aspects du modèle seront discutables? Les problèmes se limitent-ils à extrapoler en dehors de la Timeplage? …

28 r regression heteroscedasticity assumptions

4

Mesures de similitude ou de distance entre deux matrices de covariance

Existe-t-il des mesures de similitude ou de distance entre deux matrices de covariance symétrique (toutes deux ayant les mêmes dimensions)? Je pense ici aux analogues de la divergence KL de deux distributions de probabilités ou de la distance euclidienne entre vecteurs sauf appliquée aux matrices. J'imagine qu'il y aurait pas …

28 distributions hypothesis-testing covariance-matrix kullback-leibler information-theory

7

Bonnes sources pour apprendre la chaîne de Markov Monte Carlo (MCMC)

Des suggestions pour une bonne source pour apprendre les méthodes MCMC?

28 references mcmc

6

Quels sont les articles de statistiques appliquées intéressants et bien écrits?

Quels sont les bons articles décrivant les applications des statistiques qui seraient amusantes et instructives à lire? Pour être clair, je ne recherche pas vraiment des articles décrivant de nouvelles méthodes statistiques (par exemple, un article sur la régression des moindres angles), mais plutôt des articles décrivant comment résoudre des …

28 references application

3

Qui suivre sur github pour en savoir plus sur les meilleures pratiques en matière d'analyse de données?

Il est utile d'étudier le code d'analyse des données des experts. J'ai récemment parcouru github et il y a un certain nombre de personnes qui partagent du code d'analyse de données là-bas. Cela inclut quelques packages R (qui bien sûr sont disponibles directement auprès du CRAN), mais aussi plusieurs exemples …

28 r reproducible-research

4

Formule pseudo R au carré pour les GLM

J'ai trouvé une formule pour le pseudo dans le livre Extending the Linear Model with R, Julian J. Faraway (p. 59).R2R2R^2 1 - ResidualDevianceNullDeviance1-ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . Est-ce une formule courante pour le pseudo pour les GLM?R2R2R^2

28 r regression generalized-linear-model r-squared

7

Comment générer des nombres basés sur une distribution discrète arbitraire?

Comment générer des nombres basés sur une distribution discrète arbitraire? Par exemple, j'ai un ensemble de nombres que je veux générer. Disons qu'ils sont étiquetés de 1 à 3 comme suit. 1: 4%, 2: 50%, 3: 46% Fondamentalement, les pourcentages sont des probabilités d'apparaître dans la sortie du générateur de …

28 distributions

6

Problèmes avec les camemberts

Il semble y avoir une discussion croissante sur les camemberts. Les principaux arguments contre cela semblent être: La zone est perçue avec moins de puissance que la longueur. Les graphiques circulaires ont un rapport point-à-pixel de données très faible Cependant, je pense qu'ils peuvent être d'une certaine manière utiles lors …

28 data-visualization many-categories pie-chart

1

Calcul de la répétabilité des effets d'un modèle lmer

Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

3

Existe-t-il des fonctions par défaut pour les distributions uniformes discrètes dans R?

La plupart des distributions standard dans R ont une famille de commandes - pdf / pmf, cdf / cmf, quantile, écarts aléatoires (par exemple - dnorm, pnorm, qnorm, rnorm). Je sais qu'il est assez facile d'utiliser certaines commandes standard pour reproduire ces fonctions pour les distributions uniformes discrètes, mais existe-t-il …

28 r distributions uniform

3

Devenir sérieux avec les séries chronologiques avec R

Si vous pensez en arrière, à quand avez-vous commencé l'analyse des séries chronologiques. Quels outils, packages R et ressources Internet souhaiteriez-vous connaître? Ce que j'essaie de demander, c'est par où commencer? Plus précisément, existe-t-il des ressources pour R qui se résument vraiment à celui qui est "nouveau" à l'analyse de …

28 r time-series

5

Mesurer la «distance» entre deux distributions multivariées

Je cherche une bonne terminologie pour décrire ce que j'essaie de faire, pour faciliter la recherche de ressources. Donc, disons que j'ai deux grappes de points A et B, chacune associée à deux valeurs, X et Y, et je veux mesurer la "distance" entre A et B - c'est-à-dire quelle …

28 multivariate-analysis terminology distance-functions