Depuis que j'ai initialement écrit cette réponse, je l'ai mise à jour avec les nombreuses méthodes qui sont désormais disponibles pour accéder aux exemples d'ensembles de données en Python. Personnellement, j'ai tendance à m'en tenir à n'importe quel paquet que j'utilise déjà (généralement seaborn ou pandas). Si vous avez besoin d'un accès hors ligne, l'installation de l'ensemble de données avec Quilt semble être la seule option.
Seaborn
Le package de traçage génial seaborn
contient plusieurs ensembles de données d'échantillons intégrés.
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
Pandas
Si vous ne souhaitez pas importer seaborn
, mais que vous souhaitez tout de même accéder à ses exemples de jeux de données , vous pouvez utiliser l'approche de @ andrewwowens pour les données d'échantillons Seaborn:
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
Notez que les exemples d'ensembles de données contenant des colonnes catégorielles ont leur type de colonne modifié parsns.load_dataset()
et le résultat peut ne pas être le même en l'obtenant directement à partir de l'URL. Les exemples d'ensembles de données d'iris et de conseils sont également disponibles dans le repo pandas github ici .
Ensembles de données d'échantillons R
Étant donné que tout ensemble de données peut être lu via pd.read_csv()
, il est possible d'accéder en copiant les URL à partir échantillons de données de tous R ce référentiel R ensemble de données .
Les méthodes supplémentaires de chargement des ensembles de données d'échantillons R incluent
statsmodel
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris').data
et PyDataset
from pydataset import data
iris = data('iris')
scikit-learn
scikit-learn
renvoie des exemples de données sous forme de tableaux numpy plutôt que de trame de données pandas.
from sklearn.datasets import load_iris
iris = load_iris()
Courtepointe
Quilt est un gestionnaire de jeux de données créé pour faciliter la gestion des jeux de données. Il comprend de nombreux exemples de jeux de données courants, tels que
plusieurs du référentiel d'échantillons uciml . La page de démarrage rapide montre comment installer et importer l'ensemble de données d'iris:
$ pip install quilt
$ quilt install uciml/iris
Après avoir installé un ensemble de données, il est accessible localement, c'est donc la meilleure option si vous souhaitez travailler avec les données hors ligne.
import quilt.data.uciml.iris as ir
iris = ir.tables.iris()
sepal_length sepal_width petal_length petal_width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
Quilt prend également en charge la gestion des versions des ensembles de données et inclut une brève description de chaque ensemble de données.