Localisation des échantillons de données disponibles gratuitement


98

Je travaille sur une nouvelle méthode d'analyse et d'analyse de jeux de données pour identifier et isoler les sous-groupes d'une population sans connaître à l'avance les caractéristiques d'aucun sous-groupe. Bien que la méthode fonctionne assez bien avec des échantillons de données artificiels (c'est-à-dire des ensembles de données créés spécifiquement dans le but d'identifier et de séparer des sous-ensembles de la population), j'aimerais essayer de la tester avec des données réelles.

Ce que je recherche, c'est une source de données librement disponible (c'est-à-dire non confidentielle et non exclusive). De préférence, celui-ci contient des distributions bimodales ou multimodales ou est évidemment composé de plusieurs sous-ensembles qui ne peuvent pas être facilement séparés par des moyens traditionnels. Où pourrais-je aller pour trouver une telle information?



4
Vous pourriez aimer getthedata.org, un site de questions-réponses dédié à la recherche d’ensembles de données
Jeromy Anglim le

Réponses:



46


17

La Banque mondiale offre de nombreuses données intéressantes et a récemment été très active dans le développement de bonnes API .

En outre, le projet commun a une liste intéressante disponible.

Pour les données relatives à la santé aux États-Unis, pour Health Indicators Warehouse .

Le blog de Daniel Lemire points à quelques exemples intéressants ( la plupart du temps sur mesure à la recherche DB) , y compris Recensement du Canada 1880 et les rapports des nuages synoptiques .

Et pour aujourd'hui (03/04/2012), les archives du recensement américain de 1940 sont également disponibles au téléchargement.


2
La Banque mondiale fait un effort supplémentaire avec les données ouvertes et les cartes, pour Stata et R.
p.

13

Gapminder a un nombre (430 au dernier regard) de jeux de données, qui peuvent vous être utiles ou non.


11

MLComp contient quelques jeux de données intéressants et, en prime, votre algorithme sera classé si vous le téléchargez.


10

Un bon endroit à regarder est la bibliothèque de données et d'histoires ou DASL de la Carnegie Mellon University , qui contient des fichiers de données qui "illustrent l'utilisation de méthodes statistiques de base ... Un bon exemple peut rendre une leçon sur une méthode de statistiques particulière vive et pertinente. DASL est conçu pour aider les enseignants à localiser et à identifier les fichiers de données à enseigner. Nous espérons que DASL servira également d'archive pour les ensembles de données de la littérature statistique. "


9

Démarrez R et tapez data(). Cela montrera tous les jeux de données dans le chemin de recherche. De nombreux jeux de données supplémentaires sont disponibles dans les packages complémentaires. Par exemple, le AERpaquet contient quelques jeux de données de sciences sociales du monde réel intéressants .




5

Le réseau Stack Exchange dispose désormais d’un nouveau site, Open Data (version bêta du 5 mars 2015), dédié aux données. Il se décrit comme:

Open Data Stack Exchange est un site de questions-réponses destiné aux développeurs et aux chercheurs intéressés par les données ouvertes. Il est conçu et géré par vous dans le cadre du réseau de sites de questions-réponses Stack Exchange. Avec votre aide, nous travaillons ensemble pour créer une bibliothèque de réponses détaillées à toutes les questions relatives aux données ouvertes.

"Données ouvertes" fait référence à des ensembles de données qui sont "librement disponibles pour tout le monde, à utiliser et à republier à leur guise, sans restrictions du droit d'auteur, des brevets ou d'autres mécanismes de contrôle" ( Wikipedia ). Cependant, le site semble accepter les demandes d'ensembles de données fermés .







2

Les ensembles de données du livre séminal A handbook of small data setssont disponibles ici .


2

À la recherche d'un ensemble de données adapté à mes besoins, je viens de tomber sur deux sites pertinents pour la discussion.

Datacite.org qui se décrit comme ...

Nous sommes une organisation internationale qui vise à:

  • établir un accès plus facile aux données de recherche
  • accroître l'acceptation des données de recherche en tant que contributions légitimes dans le dossier scientifique, et
  • soutenir l'archivage des données afin de permettre la vérification des résultats et leur réutilisation pour une étude ultérieure.

DataBib.org qui se décrit comme ...

Databib est un outil destiné à aider les utilisateurs à identifier et à localiser des référentiels en ligne de données de recherche. Les utilisateurs et les bibliographes créent et organisent des enregistrements décrivant les référentiels de données dans lesquels les utilisateurs peuvent effectuer des recherches.

Je pense que cela vaudrait la peine de l’ajouter à la liste pour les autres.

Maintenant, trouver quelque chose dans ses liens qui correspond à mes besoins!


2

Je recommande fortement de vérifier quandl.com . C'est un rêve de programmeurs de données. Il fournit une API très facile pour accéder à l’un des 10 millions de postes de données différents. Vous recherchez des données bi-modiales ou multivariées, je suggérerais donc de vérifier les différents ensembles de données sur la population, par exemple, ce graphique de la population mondiale contient les pays et territoires sous-composants qui entrent dans le total.


1
Certaines données sont gratuites, certaines "Premium", c’est-à-dire qu’elles coûtent $$. De plus, mon rêve en matière d’API comprend des séries chronologiques, des règles et des tracés en ligne (je veux un poney).
denis


1

Utilisation dans le temps

Une très grande feuille de calcul Excel disponible au téléchargement contenant des points de données pour toutes les activités en ligne, avec la démographie des utilisateurs, au fil du temps. Veuillez lire la fiche de conseils (ci-dessous) avant de télécharger ou d’utiliser cette feuille de calcul.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.