Jeux de données disponibles publiquement

168

L'un des problèmes courants de la science des données est la collecte de données provenant de diverses sources dans un format (semi-structuré) en quelque sorte nettoyé et la combinaison de métriques provenant de différentes sources pour effectuer une analyse de niveau supérieur. En regardant les efforts des autres, en particulier les autres questions sur ce site, il apparaît que beaucoup de personnes dans ce domaine font un travail quelque peu répétitif. Par exemple, analyser des tweets, des publications sur Facebook, des articles de Wikipédia, etc. fait partie de nombreux problèmes liés au Big Data.

Certains de ces ensembles de données sont accessibles à l'aide des API publiques fournies par le site du fournisseur, mais généralement, certaines informations ou métriques précieuses sont absentes de ces API et tout le monde doit refaire et refaire les mêmes analyses. Par exemple, même si la mise en cluster des utilisateurs peut dépendre de différents cas d'utilisation et de la sélection de fonctionnalités, la mise en cluster d'utilisateurs de Twitter / Facebook peut être utile dans de nombreuses applications Big Data, qui n'est ni fournie par l'API ni disponible publiquement dans des ensembles de données indépendants. .

Existe-t-il un index ou un site d'hébergement de données accessible au public contenant des ensembles de données utiles pouvant être réutilisés pour résoudre d'autres problèmes de Big Data? Je veux dire quelque chose comme GitHub (ou un groupe de sites / ensembles de données publics ou au moins une liste complète) pour la science des données. Sinon, quelles sont les raisons pour ne pas avoir une telle plate-forme pour la science des données? La valeur commerciale des données, nécessité de mettre à jour fréquemment des ensembles de données, ...? Ne pouvons-nous pas avoir un modèle open source pour partager des ensembles de données conçus pour les scientifiques des données?

open-source dataset

— Amir Ali Akbari
source

18

Cette question pourrait être plus appropriée sur l' opendata.SE dédié . Cela dit, je croise les doigts pour la dat , qui aspire à devenir un "Git for data".

— ojdo

2

@ojdo Merci, je n'avais jamais entendu parler d'opendata.SE auparavant, j'ai aussi trouvé cette question intéressante (et très similaire).

— Amir Ali Akbari,

2

Voir quora.com/Where-can-I-find-large-datasets-open-to-the-public .

— Piotr Migdal

Je n'ai trouvé aucun bon jeu de données complet gratuit pour les applications de Business Intelligence typiques. La base de données Microsoft Contoso BI Demo pour le commerce de détail du téléchargement officiel du Centre de téléchargement Microsoft fonctionne avec certains produits Microsoft (voir AndyGett sur SharePoint et autres logiciels d'entreprise ), mais je ne vois pas de dumps SQL ou csv, ni d'informations de licence. .

— nealmcb

1

Avez-vous rejoint Open Data Stack Exchange? opendata.stackexchange.com

— sss4r

88

Il existe en fait une liste très raisonnable d'ensembles de données accessibles au public, pris en charge par différentes entreprises / sources.

Certains d'entre eux sont ci-dessous:

Jeux de données publics sur Amazon WebServices ;
Référentiel de mise en œuvre d'extraction d'éléments fréquents ;
Référentiel UCI Machine Learning ;
KDnuggets - une grande liste de beaucoup de dépôts publics.

Maintenant, deux considérations sur votre question. Le premier concerne les politiques de partage de bases de données. D'après l'expérience personnelle, certaines bases de données ne peuvent pas être rendues publiques, que ce soit pour imposer des restrictions à la confidentialité (comme pour certaines informations de réseaux sociaux) ou concernant des informations gouvernementales (comme les bases de données du système de santé).

Un autre point concerne l'utilisation / l'application de l'ensemble de données. Bien que certaines bases puissent être retraitées pour répondre aux besoins de l'application, il serait bon de disposer d'une belle organisation des jeux de données par objectif. La taxonomie devrait comprendre une analyse de graphe social, une extraction d'éléments, une classification et de nombreux autres domaines de recherche.

— Rubens
source

64

Mise à jour:

Kaggle.com , un foyer de passionnés modernes de science des données et d'apprentissage automatique :), a ouvert son propre référentiel de jeux de données .

En plus des sources énumérées.

Quelques ensembles de données de réseaux sociaux:

Stats SE contient de nombreuses sources:

— IharS
source

37

Il existe de nombreux ensembles de données disponibles, l'un des plus souvent ignoré, c'est data.gov . Comme mentionné précédemment, Freebase est génial, de même que tous les exemples publiés par @Rubens

— MCP_infiltrator
source

35

Freebase est une base de données gratuite axée sur la communauté qui couvre de nombreux sujets intéressants et contient environ 2,5 milliards de faits dans un format lisible par machine. Il est également bon d'avoir une API pour effectuer des requêtes de données.

Voici une autre liste compilée d'ensembles de données ouvertes: http://www.datapure.co/open-data-sets

— Konstantin V. Salikhov
source

Freebase ferme ses portes et sa base de données sera bientôt transférée sur Wikidata .

— Cynddl

31

Les liens suivants sont disponibles

— Jakubee
source

25

Quandl est en particulier une excellente ressource pour les données de séries chronologiques - un répertoire facile à parcourir des séries chronologiques (principalement) propres.

L'une des fonctionnalités les plus intéressantes est le prix des actions à données ouvertes, c'est-à -dire des données financières pouvant être éditées à la manière d'un wiki et ne faisant pas l'objet de licences.

— azza-bazoo
source

20

Enigma est un référentiel de jeux de données disponibles au public. Son forfait gratuit propose une recherche de données publique, avec 10 000 appels d'API par mois. Toutes les bases de données publiques ne sont pas répertoriées, mais la liste est suffisante pour les cas courants.

Je l'ai utilisé pour la recherche universitaire et cela m'a fait gagner beaucoup de temps.

Une autre source de données intéressante est le projet @unitedstates , qui contient des données et des outils pour les collecter, sur les États-Unis (membres du Congrès, formes géographiques, etc.).

— cynddl
source

18

Je voudrais signaler le recensement de données ouvertes . Il s'agit d'une initiative de l'Open Knowledge Knowledge basée sur les contributions de défenseurs de l'open data et d'experts du monde entier.

Open Data Census est un effort ouvert, mené par la communauté et systématique pour collecter et mettre à jour la base de données des jeux de données ouverts globalement par pays et, dans certains cas, comme aux États-Unis, au niveau des villes .

En outre, il offre l’occasion de comparer différents pays et villes sur des domaines d’intérêt sélectionnés.

— tomaskazemekas
source

18

The Guardian, le British Daily, fournit une autre ressource sur son site Web. Les jeux de données publiés par Guardian Datablog sont tous hébergés. Jeux de données liés aux comptes des clubs de football de la Premier League, détails sur l'inflation et le PIB du Royaume-Uni, données sur les prix Grammy, etc. Les jeux de données sont disponibles à l'adresse

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

Quelques ressources supplémentaires. Certains des jeux de données sont au format R ou il existe des commandes R pour importer directement des données dans R.

http://www.inside-r.org/howto/finding-data-internet

— binga
source

17

Recherche Google personnalisée

Vous pouvez utiliser la recherche Google personnalisée pour les ensembles de données:

Google Custom Search: Jeux de données

Il comprend 230 sources et méta-sources de jeux de données, y compris toutes celles mentionnées dans cette question. N'hésitez pas à exclure .gov et tout autre site Web des résultats en ajoutant "-.gov" ou "-site.com" à la ligne de recherche. Les autres opérateurs de recherche Google travaillent.

N'hésitez pas à me contacter si vous avez des idées sur les sites Web à ajouter.

IOGDS

Le service suivant catégorise plus de 1 000 000 jeux de données publics:

IOGDS: recherche dans le jeu de données sur le gouvernement ouvert international

— Anton Tarasenko
source

Quels sont les paramètres du lien de recherche personnalisé que vous avez fourni? Est-ce qu'il cherche dans une liste de sites Web, mots-clés, etc.?

— Amir Ali Akbari

@AmirAliAkbari Il effectue une recherche dans des sources telles que Data.gov, Quandl et d'autres grands entrepôts de données.

— Anton Tarasenko

16

Réponse tardive, mais voici une liste éclectique de plus de 100 ensembles de données intéressants

Le blog est amusant et facile à lire (je n’ai aucune affiliation). Cela vaut la peine de parcourir et d'en extraire quelques-uns:

Derniers mots de chaque détenu texan exécuté depuis 1984
10 000 images annotées de chats
2,2 millions de parties d'échecs

— Philshem
source

15

J'ai trouvé ce lien dans Data Science Central avec une liste d'ensembles de données gratuits: Grands ensembles de données disponibles gratuitement

— lafdez
source

15

Saviez-vous que les tests d'évaluation de PUMA et les téléchargements de jeux de données? https://sites.google.com/site/farazahmad/pumadatasets

Il comprend les éléments suivants:

TeraSort
Wikipédia
Élément de liste
Auto-rejoindre
Liste de proximité
Films-base de données
Index-inversé-classé

— Algarecu
source

15

Le gouvernement britannique fournit une excellente source de données non personnelles collectées dans tous les ministères: http://data.gov.uk

— Federer
source

14

Je suis nouveau sur ce forum. Je suis en retard sur cette question. Je tiens (je suis un co-fondateur de) un catalogue de portails de données accessibles au public. Il y a plus de 1000 portails actuellement répertoriés sur la liste et couvrant des portails aux niveaux international, fédéral, étatique, municipal et universitaire.

http://www.opengeocode.org/opendata/

— Andrew - OpenGeoCode
source

14

Je suis surpris qu'on ne l'ait pas mentionné, car cela semble assez évident: http://www.kaggle.com a toujours de nouveaux jeux de données très intéressants. Les informations étant considérées comme un atout, les entreprises ne souhaitent souvent pas divulguer ces données (en plus des problèmes de confidentialité). Kaggle vous fournit des données et espère que vous résoudrez les problèmes de votre entreprise en échange.

— RAM
source

14

Ensembles de données

Torrents Académiques
Quora
hadoopilluminated.com
data.gov
Quandl
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
Bases de données téléchargeables héritées de GeoLite
Quora's Big Datasets Answer
Ensembles Big Data publics
Houston Data Portal
Sources de données Kaggle
Un catalogue approfondi de la variation génétique humaine
Une base de données organisée par la communauté de personnes, de lieux et de choses bien connus
Google Public Data
Données de la Banque mondiale
NYC Taxi data
Open Data Philly Connecter les gens avec des données pour Philadelphie
Référentiel réseau Un référentiel de données interactif avec plus de 600 réseaux répartis dans plus de 20 collections. à partir de réseaux sociaux à grande échelle, de graphiques Web, de réseaux biologiques, de réseaux de communication et de réseaux technologiques, etc.
Une liste de sources utiles Un article de blog comprend de nombreuses bases de données.

Les ensembles de données De super-science des données

— chenrui333
source

1

Pouvez-vous nous fournir des informations sur les deux ensembles de données / liens? Cela allégera effectivement le fardeau de ceux qui recherchent des types spécifiques d’ensembles de données. Jetez un coup d'œil à d'autres publications pour voir quel type d'informations vos références manquent.

— Rubens

11

Comme vous l'avez mentionné, l'API est la partie la plus difficile, pas les données. Quandl semble résoudre ce problème en fournissant plus de 10 millions d'ensembles de données accessibles au public sous une API simple et conviviale, RESTful. Si la programmation n’est pas votre point fort, il existe un outil gratuit pour faciliter le chargement de données dans Excel. De plus, si vous faites profiter de la programmation, il y a plusieurs bibliothèques natives dans R, Python, Java et plus .

— Brian Risk
source

11

Pour ajouter à une liste éventuellement sans fin:

comme mentionné par cyndd, il y a Wikidata ,

et pour la connaissance structurée organisée, Wolfram Alpha .

— image_doctor
source

11

Je suis tombé sur cette collection sur Github. La collection est également classée.

https://github.com/caesar0301/awesome-public-datasets

Et pour la partie concernant

Vous ne pouvez pas utiliser un modèle open source pour partager des ensembles de données conçus pour les scientifiques des données?

vous pouvez consulter le guide du groupe Leek sur le partage des données

— Shagun Sodhani
source

10

Data.gov ne répertorie pas toutes les données gouvernementales. En février, la Sunlight Foundation a créé un ensemble de feuilles de calcul décrivant les ensembles de données disponibles.

— Steve Kallestad
source

9

Le projet GDELT est une autre source de données que je n'ai pas vue énumérée . Du site:

Le projet GDELT surveille les actualités mondiales diffusées, imprimées et en ligne dans presque 100 pays, dans plus de 100 langues et identifie les personnes, les lieux, les organisations, les comptes, les thèmes, les sources et les événements qui animent notre société mondiale chaque seconde de chaque jour. créer une plateforme libre et ouverte pour l'informatique sur le monde entier.

— dvdnglnd
source

8

Ce sous-répertoire répertorie un grand nombre de jeux de données connus.

Reddit Datasets

Il existe de nombreuses demandes de jeux de données sur ce sous-répertoire, dont plusieurs ont reçu une réponse.

— Un gars
source

6

J'ai créé un repo github pour cela. Les jeux de données ne sont pas volumineux, mais constituent des exemples minimaux destinés à la pratique et à l’exploration de techniques de modélisation prédictive qui peuvent ensuite être étendues à de grands jeux de données.

Bible d'apprentissage problème machine (MLPB)

La particularité de ce référentiel est que chaque problème est étiqueté avec des balises telles que [multi-classe], [données non équilibrées], [régression], etc., ce qui facilite la recherche de certains types de problèmes / ensembles de données.

— Ben
source

6

Eurostats http://ec.europa.eu/eurostat et la Banque centrale européenne https://www.ecb.europa.eu/stats/html/index.en.html fournissent une grande variété de jeux de données que j'utilise assez souvent dans mes projets de travail.

— Juha
source

6

Outre tous ces jeux de données, si vous êtes intéressé par des données relatives à l'Inde. Le site public officiel du gouvernement indien est

https://data.gov.in/

Il fournit des ensembles de données provenant de différents départements du gouvernement indien qui peuvent être bien utilisés pour l'analyse de données volumineuses et l'apprentissage automatique.

— Gaurav
source

4

Yahoo vient de publier un énorme ensemble de données pour la recherche. Profitez-en!

— Kasra Manshaei
source

4

Juste en chargeant le paquet MASS dans R, nous avons accès à plusieurs images ou ensembles de données.

install.packages ("MASS") require ("MASS")

— Dileep Balineni
source

3

3 jeux de données de https://www.jc-bingo.com/about

visiteur-interest.csv Intérêt cumulé des visiteurs compilé sur la base de journaux d'accès Web d'une semaine. Inclut l'adresse IP du visiteur, la chaîne d'agent d'utilisateur, le pays du visiteur, les langues et les sujets de page consultés. 19 926 enregistrements, 2,9 Mo.
user-agents.csv Real user user agents, classés par popularité. 4 826 enregistrements, 716 Ko.
bots.csv Adresses IP et chaînes de l'agent utilisateur du robot extraites des journaux d'accès Web. 1 293 enregistrements, 122 Ko.

— Yuri
source

3

De toute évidence, il existe un grand nombre de bases de données publiques.

L’une d’entre elles, pas encore mentionnée, est fournie par la FAO (Organisation des Nations Unies pour l’ alimentation et l’agriculture), accessible à l’adresse suivante:

http://www.fao.org/faostat/

Il contient des données sur la production alimentaire pour les pays du monde entier.

— setempler
source