Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


2
Regroupement d'une matrice binaire
J'ai une matrice semi-petite de caractéristiques binaires de dimension 250k x 100. Chaque ligne est un utilisateur et les colonnes sont des "balises" binaires d'un certain comportement d'utilisateur, par exemple "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 …



2
Choisir l'alpha optimal dans la régression logistique nette élastique
J'effectue une régression logistique net élastique sur un ensemble de données de soins de santé en utilisant le glmnetpackage dans R en sélectionnant les valeurs lambda sur une grille de de 0 à 1. Mon code abrégé est ci-dessous:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", …

2
Test de Wald en régression (OLS et GLM): distribution t- vs z
Je comprends que le test de Wald pour les coefficients de régression est basée sur la propriété suivante qui détient asymptotiquement (par exemple Wasserman (2006): Toutes les statistiques , pages 153, 214-215): oùβdésigne le coefficient de régression estimé,^soi(β)représente l'erreur type du coefficient de régression etβ0est la valeur d'intérêt (β0est généralement0 …

3
Pourquoi Lars et Glmnet donnent-ils des solutions différentes au problème du Lasso?
Je veux mieux comprendre les packages R Larset Glmnet, qui sont utilisés pour résoudre le problème Lasso: (pour Variables et échantillons, voir www.stanford.edu/~hastie/Papers/glmnet.pdf à la page 3)m i n( β0β) ∈ Rp + 1[ 12 N∑i = 1N( yje- β0- xTjeβ)2+ λ | | β| |l1]mjen(β0β)∈Rp+1[12N∑je=1N(yje-β0-XjeTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 …

8
Effectuer un regroupement K-means (ou ses proches parents) avec uniquement une matrice de distance, pas des données de points par entités
Je veux effectuer un regroupement K-means sur les objets que j'ai, mais les objets ne sont pas décrits comme des points dans l'espace, c'est-à-dire par objects x featuresensemble de données. Cependant, je suis capable de calculer la distance entre deux objets quelconques (il est basé sur une fonction de similitude). …




2
Est-il possible d'accumuler un ensemble de statistiques décrivant un grand nombre d'échantillons afin que je puisse ensuite produire un boxplot?
Je dois clarifier immédiatement que je suis un développeur de logiciels pratiquant, pas un statisticien, et que mon cours de statistiques au collège était il y a très longtemps… Cela dit, j'aimerais savoir s'il existe une méthode pour accumuler un ensemble de statistiques descriptives qui pourraient ensuite être utilisées pour …


4
Entropie d'une image
Quelle est la façon correcte le plus théorique / physique-théorique de calculer l'entropie d'une image? Je ne me soucie pas de l'efficacité informatique en ce moment - je la veux théoriquement aussi correcte que possible. Commençons par une image en niveaux de gris. Une approche intuitive consiste à considérer l'image …

1
Y a-t-il une différence entre et ?
Le coefficient de corrélation est généralement écrit avec un majuscule mais parfois non. Je me demande s'il y a vraiment une différence entre et ? Est-ce que peut signifier autre chose qu'un coefficient de corrélation?r 2 R 2 rRRRr2r2r^2R2R2R^2rrr

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.