Statistiques et Big Data

3

Construire un autoencodeur dans Tensorflow pour dépasser PCA

Hinton et Salakhutdinov, dans Reducing the Dimensionality of Data with Neural Networks, Science 2006, ont proposé une ACP non linéaire grâce à l'utilisation d'un auto-encodeur profond. J'ai essayé de construire et d'entraîner plusieurs fois un autoencodeur PCA avec Tensorflow mais je n'ai jamais pu obtenir de meilleurs résultats qu'un PCA …

31 pca python deep-learning tensorflow autoencoders

8

Probabilité de naître un jour bissextile?

Étant donné qu'aujourd'hui est un jour bissextile, quelqu'un connaît-il la probabilité de naître un jour bissextile?

31 probability

4

Quels sont les avantages relatifs des données Winsorizing vs. Trimming?

Winsoriser les données signifie remplacer les valeurs extrêmes d'un ensemble de données par une certaine valeur de centile à chaque extrémité, tandis que le rognage ou la troncature implique la suppression de ces valeurs extrêmes. Je vois toujours les deux méthodes discutées comme une option viable pour atténuer l'effet des …

31 standard-deviation mean truncation trimmed-mean winsorizing

2

La valeur exacte d'une «valeur p» est-elle vide de sens?

J'ai eu une discussion avec un statisticien en 2009, où il a déclaré que la valeur exacte d'une valeur p n'était pas pertinente: la seule chose importante est de savoir si elle est significative ou non. C'est-à-dire qu'un résultat ne peut pas être plus significatif qu'un autre; vos échantillons, par …

31 statistical-significance p-value bonferroni

1

Question de régression binomiale négative - est-ce un mauvais modèle?

Je lis un article très intéressant de Sellers et Shmueli sur les modèles de régression pour les données de comptage. Vers le début (p. 944), ils citent McCullaugh et Nelder (1989) disant que la régression binomiale négative est impopulaire et a un lien canonique problématique. J'ai trouvé le passage référé …

31 regression modeling negative-binomial

5

Recommandations de couleur et d'épaisseur de ligne pour les tracés de ligne

Beaucoup de choses ont été écrites sur les choix de couleurs adaptés aux daltoniens pour les cartes, les polygones et les régions ombrées en général (voir par exemple http://colorbrewer2.org ). Je n'ai pas pu trouver de recommandations pour les couleurs de ligne et l'épaisseur de ligne variable pour les graphiques …

31 r data-visualization

4

Pourquoi les valeurs de p inférieures ne sont-elles pas plus de preuves contre le nul? Arguments de Johansson 2011

Johansson (2011) dans « Hail the impossible: p-values, evidence, and vraisemblability » (voici également un lien vers le journal ) déclare que des valeurs de plus faibles sont souvent considérées comme des preuves plus solides contre le nul. Johansson implique que les gens considéreraient les preuves contre le zéro comme …

31 hypothesis-testing statistical-significance p-value philosophical

1

Réduction dimensionnelle (SVD ou PCA) sur une grande matrice clairsemée

/ edit: Plus de suivi maintenant vous pouvez utiliser irlba :: prcomp_irlba / edit: suivi de mon propre post. irlbaa maintenant des arguments "center" et "scale", qui vous permettent de calculer les principaux composants, par exemple: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v J'ai un grand nombre Matrixde …

31 r pca dimensionality-reduction svd matrix-decomposition

2

Quelle est la différence entre le «deep learning» et la modélisation multi-niveaux / hiérarchique?

Le «deep learning» n'est-il qu'un autre terme pour la modélisation multi-niveaux / hiérarchique? Je connais beaucoup mieux ce dernier que le premier, mais d'après ce que je peux dire, la principale différence n'est pas dans leur définition, mais dans la façon dont ils sont utilisés et évalués dans leur domaine …

31 machine-learning multilevel-analysis hierarchical-bayesian deep-learning

1

Quelles sont les directives utiles pour les paramètres GBM?

Quelles sont les directives utiles pour tester les paramètres (c.-à-d. La profondeur d'interaction, l'enfant minuscule, la fréquence d'échantillonnage, etc.) à l'aide de GBM? Disons que j'ai 70 à 100 fonctionnalités, une population de 200 000 habitants et j'ai l'intention de tester la profondeur d'interaction de 3 et 4. De toute …

31 r hypothesis-testing cart boosting

5

Détection de prédicteurs significatifs parmi de nombreuses variables indépendantes

Dans un ensemble de données de deux populations qui ne se chevauchent pas (patients et en bonne santé, total ), je voudrais trouver (sur variables indépendantes) des prédicteurs significatifs pour une variable dépendante continue. Il existe une corrélation entre les prédicteurs. Je voudrais savoir si l'un des prédicteurs est lié …

31 regression pca feature-selection stepwise-regression underdetermined

8

Remplacer les valeurs aberrantes par une moyenne

Cette question a été posée par mon ami qui n'est pas averti d'Internet. Je n'ai aucun fond de statistiques et j'ai cherché autour d'Internet pour cette question. La question est: est-il possible de remplacer les valeurs aberrantes par une valeur moyenne? si c'est possible, existe-t-il des références de livres / …

31 mean outliers robust winsorizing

3

Réfutation basée sur l'entropie du paradoxe de la flèche en arrière bayésienne du temps de Shalizi?

Dans cet article , la talentueuse chercheuse Cosma Shalizi soutient que pour accepter pleinement une vision bayésienne subjective, il faut également accepter un résultat non physique selon lequel la flèche du temps (donnée par le flux d'entropie) devrait en fait reculer . Il s'agit principalement d'une tentative d'argumenter contre l'entropie …

31 bayesian entropy maximum-entropy philosophical

2

Comment tracer la frontière de décision d'un classificateur k-plus proche voisin à partir des éléments d'apprentissage statistique?

Je veux générer l'intrigue décrite dans le livre ElemStatLearn "The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition" de Trevor Hastie & Robert Tibshirani & Jerome Friedman. L'intrigue est: Je me demande comment je peux produire ce graphique exact dans R, notez en particulier les graphiques de …

31 r data-visualization k-nearest-neighbour

4

Analyse avec des données complexes, quelque chose de différent?

Disons par exemple que vous faites un modèle linéaire, mais les données sont complexes.yyy y= x β+ ϵy=xβ+ϵ y = x \beta + \epsilon Mon ensemble de données est complexe, comme dans tous les nombres en sont de la forme ( a + b i ) . Y a-t-il quelque …

31 regression anova data-transformation complex-numbers