L'un des problèmes courants de la science des données est la collecte de données provenant de diverses sources dans un format (semi-structuré) en quelque sorte nettoyé et la combinaison de métriques provenant de différentes sources pour effectuer une analyse de niveau supérieur. En regardant les efforts des autres, en particulier les autres questions sur ce site, il apparaît que beaucoup de personnes dans ce domaine font un travail quelque peu répétitif. Par exemple, analyser des tweets, des publications sur Facebook, des articles de Wikipédia, etc. fait partie de nombreux problèmes liés au Big Data.
Certains de ces ensembles de données sont accessibles à l'aide des API publiques fournies par le site du fournisseur, mais généralement, certaines informations ou métriques précieuses sont absentes de ces API et tout le monde doit refaire et refaire les mêmes analyses. Par exemple, même si la mise en cluster des utilisateurs peut dépendre de différents cas d'utilisation et de la sélection de fonctionnalités, la mise en cluster d'utilisateurs de Twitter / Facebook peut être utile dans de nombreuses applications Big Data, qui n'est ni fournie par l'API ni disponible publiquement dans des ensembles de données indépendants. .
Existe-t-il un index ou un site d'hébergement de données accessible au public contenant des ensembles de données utiles pouvant être réutilisés pour résoudre d'autres problèmes de Big Data? Je veux dire quelque chose comme GitHub (ou un groupe de sites / ensembles de données publics ou au moins une liste complète) pour la science des données. Sinon, quelles sont les raisons pour ne pas avoir une telle plate-forme pour la science des données? La valeur commerciale des données, nécessité de mettre à jour fréquemment des ensembles de données, ...? Ne pouvons-nous pas avoir un modèle open source pour partager des ensembles de données conçus pour les scientifiques des données?