Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Lorsque je commence une analyse exploratoire sur un grand ensemble de données (de nombreux échantillons, de nombreuses variables), je me retrouve souvent avec des centaines de variables dérivées, et des tonnes de graphiques différents, et aucun moyen réel de garder une trace de ce qui se passe où. Le code …
J'ai une matrice semi-petite de caractéristiques binaires de dimension 250k x 100. Chaque ligne est un utilisateur et les colonnes sont des "balises" binaires d'un certain comportement d'utilisateur, par exemple "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 …
Andrew Gelman dans l' un de ses récents articles de blog dit: Je ne pense pas que des contrefactuels ou des résultats potentiels soient nécessaires pour le paradoxe de Simpson. Je dis cela parce que l'on peut mettre en place le paradoxe de Simpson avec des variables qui ne peuvent …
J'ai récemment lu sur le test de Mann-Whitney U. Il s'avère que pour effectuer ce test dans R, vous devez réellement exécuter un test de Wilcoxon! Ma question: la statistique W de wilcox.testin R est-elle identique à la statistique U?
J'effectue une régression logistique net élastique sur un ensemble de données de soins de santé en utilisant le glmnetpackage dans R en sélectionnant les valeurs lambda sur une grille de de 0 à 1. Mon code abrégé est ci-dessous:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", …
Je comprends que le test de Wald pour les coefficients de régression est basée sur la propriété suivante qui détient asymptotiquement (par exemple Wasserman (2006): Toutes les statistiques , pages 153, 214-215): oùβdésigne le coefficient de régression estimé,^soi(β)représente l'erreur type du coefficient de régression etβ0est la valeur d'intérêt (β0est généralement0 …
Je veux mieux comprendre les packages R Larset Glmnet, qui sont utilisés pour résoudre le problème Lasso: (pour Variables et échantillons, voir www.stanford.edu/~hastie/Papers/glmnet.pdf à la page 3)m i n( β0β) ∈ Rp + 1[ 12 N∑i = 1N( yje- β0- xTjeβ)2+ λ | | β| |l1]mjen(β0β)∈Rp+1[12N∑je=1N(yje-β0-XjeTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 …
Je veux effectuer un regroupement K-means sur les objets que j'ai, mais les objets ne sont pas décrits comme des points dans l'espace, c'est-à-dire par objects x featuresensemble de données. Cependant, je suis capable de calculer la distance entre deux objets quelconques (il est basé sur une fonction de similitude). …
Après avoir joué beaucoup trop d'Angry Birds, j'ai commencé à observer mes propres stratégies. Il s'avère que j'ai développé une approche très spécifique pour obtenir 3 étoiles à chaque niveau. Cela m'a fait me questionner sur les défis du développement d'un système d'apprentissage automatique capable de jouer à Angry Birds. …
Supposons que j'ai une mesure pour chaque sujet sur chaque site. Deux variables, le sujet et le site, présentent un intérêt en termes de calcul des valeurs de corrélation intraclasse (ICC). En règle générale, j'utilisais la fonction lmerdu package R lme4et exécutais lmer(measurement ~ 1 + (1 | subject) + …
Je suis tout nouveau sur cette chose R, mais je ne sais pas quel modèle sélectionner. J'ai fait une régression pas à pas en sélectionnant chaque variable en fonction de l'AIC le plus bas. Je suis venu avec 3 modèles dont je ne sais pas quel est le "meilleur". Model …
Je dois clarifier immédiatement que je suis un développeur de logiciels pratiquant, pas un statisticien, et que mon cours de statistiques au collège était il y a très longtemps… Cela dit, j'aimerais savoir s'il existe une méthode pour accumuler un ensemble de statistiques descriptives qui pourraient ensuite être utilisées pour …
J'ai deux groupes de données. Chacun avec une distribution différente de plusieurs variables. J'essaie de déterminer si les distributions de ces deux groupes sont différentes d'une manière statistiquement significative. J'ai les données sous forme brute et regroupées dans des catégories plus faciles à traiter avec des décomptes de fréquence dans …
Quelle est la façon correcte le plus théorique / physique-théorique de calculer l'entropie d'une image? Je ne me soucie pas de l'efficacité informatique en ce moment - je la veux théoriquement aussi correcte que possible. Commençons par une image en niveaux de gris. Une approche intuitive consiste à considérer l'image …
Le coefficient de corrélation est généralement écrit avec un majuscule mais parfois non. Je me demande s'il y a vraiment une différence entre et ? Est-ce que peut signifier autre chose qu'un coefficient de corrélation?r 2 R 2 rRRRr2r2r^2R2R2R^2rrr
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.