Statistiques et Big Data large-data

1

Tester un grand ensemble de données pour la normalité - comment et est-il fiable?

J'examine une partie de mon ensemble de données contenant 46840 valeurs doubles allant de 1 à 1690 regroupées en deux groupes. Afin d'analyser les différences entre ces groupes, j'ai commencé par examiner la distribution des valeurs afin de choisir le bon test. Après un guide sur les tests de normalité, …

12 r normal-distribution normality-assumption large-data

4

Test d'hypothèse avec Big Data

Comment effectuez-vous des tests d'hypothèses avec des mégadonnées? J'ai écrit le script MATLAB suivant pour souligner ma confusion. Il ne fait que générer deux séries aléatoires et exécuter une régression linéaire simple d'une variable sur l'autre. Il effectue cette régression plusieurs fois en utilisant différentes valeurs aléatoires et rapporte des …

12 hypothesis-testing large-data

1

Quand dois-je arrêter de chercher un modèle?

Je recherche un modèle entre les cours de l'énergie et la météo. J'ai le prix du MWatt acheté entre les pays d'Europe, et beaucoup de valeurs sur la météo (fichiers Grib). Chaque heure sur une période de 5 ans (2011-2015). Prix / jour C'est par jour pendant un an. J'ai …

11 time-series forecasting predictive-models modeling large-data

1

Gestion de grands ensembles de données dans R - tutoriels, meilleures pratiques, etc.

Je suis un R noob qui est tenu de faire divers types d'analyses sur de grands ensembles de données dans R. Donc, en regardant autour de ce site et ailleurs, il m'a semblé qu'il y avait beaucoup de problèmes ésotériques et moins connus impliqués ici - comme quel package utiliser …

11 r large-data

1

Une ACP à grande échelle est-elle même possible?

La méthode classique de l'analyse en composantes principales (ACP) consiste à le faire sur une matrice de données d'entrée dont les colonnes ont une moyenne nulle (alors l'ACP peut "maximiser la variance"). Ceci peut être réalisé facilement en centrant les colonnes. Cependant, lorsque la matrice d'entrée est clairsemée, la matrice …

10 pca algorithms dimensionality-reduction large-data sparse

3

Comparaison des modèles de régression logistique binaire imbriquée lorsque

Pour mieux poser ma question, j'ai fourni quelques - unes des sorties à la fois un 16 modèle variable ( fit) et un 17 modèle variable ( fit2) ci - dessous (toutes les variables prédictives dans ces modèles sont continus, où la seule différence entre ces modèles est que fitne …

10 r regression logistic model-selection large-data

2

Est-il judicieux de calculer des intervalles de confiance et de tester des hypothèses lorsque des données de l'ensemble de la population sont disponibles?

Est-il judicieux de calculer des intervalles de confiance et de tester des hypothèses lorsque des données de l'ensemble de la population sont disponibles? À mon avis, la réponse est non, car nous pouvons calculer avec précision les vraies valeurs des paramètres. Mais alors, quelle est la proportion maximale de données …

10 hypothesis-testing confidence-interval sample-size large-data population

3

Comment afficher les grandes séries chronologiques de manière interactive?

Je traite souvent une quantité raisonnable de données de séries chronologiques, 50 à 200 millions de doublons avec des horodatages associés et je voudrais les visualiser dynamiquement. Existe-t-il un logiciel pour le faire efficacement? Qu'en est-il des bibliothèques et des formats de données? Zoom-cache est un exemple de bibliothèque se …

10 time-series data-visualization large-data interactive-visualization

1

Traiter de très grands ensembles de données chronologiques

J'ai accès à un très grand ensemble de données. Les données proviennent d' enregistrements MEG de personnes écoutant des extraits musicaux, de l'un des quatre genres. Les données sont les suivantes: 6 sujets 3 répétitions expérimentales (époques) 120 essais par époque 8 secondes de données par essai à 500 Hz …

10 machine-learning feature-selection large-data feature-construction

3

Approches lors de l'apprentissage à partir d'énormes ensembles de données?

Fondamentalement, il existe deux façons courantes d'apprendre contre d'énormes ensembles de données (lorsque vous êtes confronté à des restrictions de temps / d'espace): Tricher :) - utilisez juste un sous-ensemble "gérable" pour la formation. La perte de précision peut être négligeable en raison de la loi des rendements décroissants - …

10 machine-learning large-data model-evaluation train

1

K-signifie: combien d'itérations dans des situations pratiques?

Je n'ai pas d'expérience dans l'industrie de l'exploration de données ou des mégadonnées, donc j'aimerais vous entendre partager votre expérience. Les gens exécutent-ils réellement k-means, PAM, CLARA, etc. sur un très grand ensemble de données? Ou bien ils en choisissent simplement un échantillon au hasard? S'ils ne prennent qu'un échantillon …

10 clustering data-mining k-means convergence large-data

2

Régression du processus gaussien pour les ensembles de données de grande dimension

Je voulais juste voir si quelqu'un avait une expérience de l'application de la régression de processus gaussienne (GPR) à des ensembles de données de grande dimension. J'examine certaines des diverses méthodes GPR clairsemées (par exemple, les pseudo-entrées GPR clairsemées) pour voir ce qui pourrait fonctionner pour les ensembles de données …

10 machine-learning predictive-models large-data gaussian-process

2

Réduction dimensionnelle évolutive

Compte tenu du nombre constant de caractéristiques, Barnes-Hut t-SNE a une complexité de , les projections aléatoires et l'ACP ont une complexité de O ( n ), ce qui les rend "abordables" pour de très grands ensembles de données.O ( n logn )O(nlog⁡n)O(n\log n)O ( n )O(n)O(n) En revanche, les …

9 pca dimensionality-reduction large-data multidimensional-scaling tsne

6

Quels algorithmes d'apprentissage automatique peuvent être mis à l'échelle à l'aide de hadoop / map-Reduce

Les algorithmes d'apprentissage automatique évolutifs semblent être à la mode ces jours-ci. Chaque entreprise ne gère rien de moins que les mégadonnées . Existe-t-il un manuel qui explique quels algorithmes d'apprentissage automatique peuvent être mis à l'échelle en utilisant des architectures parallèles comme Map-Reduce, et quels algorithmes ne le peuvent …

9 machine-learning large-data

2

Bootstrap paramétrique, semi-paramétrique et non paramétrique pour les modèles mixtes

Les greffes suivantes sont extraites de cet article . Je suis novice dans le bootstrap et j'essaie d'implémenter le bootstrap paramétrique, semi-paramétrique et non paramétrique pour le modèle mixte linéaire avec le R bootpackage. Code R Voici mon Rcode: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

Questions marquées «large-data»