Questions marquées «large-data»

Les `` données volumineuses '' font référence à des situations où le nombre d'observations (points de données) est si important qu'il nécessite des changements dans la façon dont l'analyste des données pense ou conduit l'analyse. (À ne pas confondre avec «haute dimensionnalité».)



5
Quelles sont les compétences requises pour effectuer des analyses statistiques à grande échelle?
De nombreux emplois statistiques demandent une expérience avec des données à grande échelle. Quelles sont les compétences statistiques et informatiques nécessaires pour travailler avec de grands ensembles de données? Par exemple, qu’en est-il de la construction de modèles de régression à partir d’un ensemble de données contenant 10 millions d’échantillons?

7
Défis industrie vs Kaggle. Est-ce que collecter plus d'observations et avoir accès à plus de variables est plus important que la modélisation de fantaisie?
J'espère que le titre est explicite. Dans Kaggle, la plupart des gagnants utilisent l’empilement avec parfois des centaines de modèles de base pour réduire au minimum quelques points de pourcentage de MSE, de précision ... En général, selon votre expérience, l’importance de la modélisation sophistiquée telle que l’empilement par rapport …



10
Qu'est-ce que le Big Data?
On m'a posé à plusieurs reprises la question: Qu'est-ce que le Big Data? À la fois par les étudiants et mes parents qui attirent l'attention sur les statistiques et ML. J'ai trouvé ce CV-post . Et je sens que je suis d’accord avec la seule réponse possible. La page Wikipedia …
44 large-data 





9
Outils logiciels de statistiques et d'exploration de données pour gérer de grands ensembles de données
Actuellement, je dois analyser environ 20 millions d'enregistrements et créer des modèles de prédiction. Jusqu'à présent, j'ai essayé Statistica, SPSS, RapidMiner et R. Parmi ces Statistica semble être le plus approprié pour faire face à l'exploration de données et l'interface utilisateur de RapidMiner est également très pratique, mais il semble …

1
Apprentissage en continu de pointe
J'ai travaillé avec de grands ensembles de données récemment et j'ai trouvé beaucoup d'articles sur les méthodes de streaming. Pour n'en nommer que quelques-uns: Follow-the-Regularized-Leader and Mirror Descent: The Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Apprentissage en continu: SVM en un seul passage ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: Primal …


3
Première étape pour les mégadonnées (
Supposons que vous analysez un énorme ensemble de données à hauteur de milliards d'observations par jour, où chaque observation comporte quelques milliers de variables numériques et catégorielles éparses et peut-être redondantes. Disons qu'il y a un problème de régression, un problème de classification binaire déséquilibré et une tâche de «découvrir …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.