Statistiques et Big Data

5

Comment contrôler les analyses exploratoires de grands ensembles de données?

Lorsque je commence une analyse exploratoire sur un grand ensemble de données (de nombreux échantillons, de nombreuses variables), je me retrouve souvent avec des centaines de variables dérivées, et des tonnes de graphiques différents, et aucun moyen réel de garder une trace de ce qui se passe où. Le code …

22 eda project-management

2

Regroupement d'une matrice binaire

J'ai une matrice semi-petite de caractéristiques binaires de dimension 250k x 100. Chaque ligne est un utilisateur et les colonnes sont des "balises" binaires d'un certain comportement d'utilisateur, par exemple "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 …

22 r clustering binary-data

3

Comprendre le paradoxe de Simpson: l'exemple d'Andrew Gelman avec la régression du revenu sur le sexe et la taille

Andrew Gelman dans l' un de ses récents articles de blog dit: Je ne pense pas que des contrefactuels ou des résultats potentiels soient nécessaires pour le paradoxe de Simpson. Je dis cela parce que l'on peut mettre en place le paradoxe de Simpson avec des variables qui ne peuvent …

22 regression interaction simpsons-paradox

3

La statistique W produite par wilcox.test () dans R est-elle la même que la statistique U?

J'ai récemment lu sur le test de Mann-Whitney U. Il s'avère que pour effectuer ce test dans R, vous devez réellement exécuter un test de Wilcoxon! Ma question: la statistique W de wilcox.testin R est-elle identique à la statistique U?

22 r wilcoxon-mann-whitney

2

Choisir l'alpha optimal dans la régression logistique nette élastique

J'effectue une régression logistique net élastique sur un ensemble de données de soins de santé en utilisant le glmnetpackage dans R en sélectionnant les valeurs lambda sur une grille de de 0 à 1. Mon code abrégé est ci-dessous:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", …

22 machine-learning cross-validation glmnet elastic-net

2

Test de Wald en régression (OLS et GLM): distribution t- vs z

Je comprends que le test de Wald pour les coefficients de régression est basée sur la propriété suivante qui détient asymptotiquement (par exemple Wasserman (2006): Toutes les statistiques , pages 153, 214-215): oùβdésigne le coefficient de régression estimé,^soi(β)représente l'erreur type du coefficient de régression etβ0est la valeur d'intérêt (β0est généralement0 …

22 r regression hypothesis-testing generalized-linear-model

3

Pourquoi Lars et Glmnet donnent-ils des solutions différentes au problème du Lasso?

Je veux mieux comprendre les packages R Larset Glmnet, qui sont utilisés pour résoudre le problème Lasso: (pour Variables et échantillons, voir www.stanford.edu/~hastie/Papers/glmnet.pdf à la page 3)m i n( β0β) ∈ Rp + 1[ 12 N∑i = 1N( yje- β0- xTjeβ)2+ λ | | β| |l1]mjen(β0β)∈Rp+1[12N∑je=1N(yje-β0-XjeTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 …

22 r regression machine-learning lasso regularization

8

Effectuer un regroupement K-means (ou ses proches parents) avec uniquement une matrice de distance, pas des données de points par entités

Je veux effectuer un regroupement K-means sur les objets que j'ai, mais les objets ne sont pas décrits comme des points dans l'espace, c'est-à-dire par objects x featuresensemble de données. Cependant, je suis capable de calculer la distance entre deux objets quelconques (il est basé sur une fonction de similitude). …

22 machine-learning clustering data-mining k-means distance

4

Comment concevriez-vous un système d'apprentissage automatique pour jouer à Angry Birds?

Après avoir joué beaucoup trop d'Angry Birds, j'ai commencé à observer mes propres stratégies. Il s'avère que j'ai développé une approche très spécifique pour obtenir 3 étoiles à chaque niveau. Cela m'a fait me questionner sur les défis du développement d'un système d'apprentissage automatique capable de jouer à Angry Birds. …

22 machine-learning reinforcement-learning

1

Corrélation intraclasse (ICC) pour une interaction?

Supposons que j'ai une mesure pour chaque sujet sur chaque site. Deux variables, le sujet et le site, présentent un intérêt en termes de calcul des valeurs de corrélation intraclasse (ICC). En règle générale, j'utilisais la fonction lmerdu package R lme4et exécutais lmer(measurement ~ 1 + (1 | subject) + …

22 r lme4-nlme intraclass-correlation

3

AIC ou p-value: lequel choisir pour la sélection du modèle?

Je suis tout nouveau sur cette chose R, mais je ne sais pas quel modèle sélectionner. J'ai fait une régression pas à pas en sélectionnant chaque variable en fonction de l'AIC le plus bas. Je suis venu avec 3 modèles dont je ne sais pas quel est le "meilleur". Model …

22 model-selection aic stepwise-regression

2

Est-il possible d'accumuler un ensemble de statistiques décrivant un grand nombre d'échantillons afin que je puisse ensuite produire un boxplot?

Je dois clarifier immédiatement que je suis un développeur de logiciels pratiquant, pas un statisticien, et que mon cours de statistiques au collège était il y a très longtemps… Cela dit, j'aimerais savoir s'il existe une méthode pour accumuler un ensemble de statistiques descriptives qui pourraient ensuite être utilisées pour …

22 algorithms median quantiles

5

Évaluation de l'importance des différences de distribution

J'ai deux groupes de données. Chacun avec une distribution différente de plusieurs variables. J'essaie de déterminer si les distributions de ces deux groupes sont différentes d'une manière statistiquement significative. J'ai les données sous forme brute et regroupées dans des catégories plus faciles à traiter avec des décomptes de fréquence dans …

22 distributions statistical-significance

4

Entropie d'une image

Quelle est la façon correcte le plus théorique / physique-théorique de calculer l'entropie d'une image? Je ne me soucie pas de l'efficacité informatique en ce moment - je la veux théoriquement aussi correcte que possible. Commençons par une image en niveaux de gris. Une approche intuitive consiste à considérer l'image …

22 spatial entropy image-processing

1

Y a-t-il une différence entre et ?

Le coefficient de corrélation est généralement écrit avec un majuscule mais parfois non. Je me demande s'il y a vraiment une différence entre et ? Est-ce que peut signifier autre chose qu'un coefficient de corrélation?r 2 R 2 rRRRr2r2r^2R2R2R^2rrr

22 correlation terminology r-squared