Quels sont les bons ensembles de données pour apprendre les algorithmes de base de l'apprentissage automatique et pourquoi?


19

Je suis nouveau dans l'apprentissage automatique et je recherche des ensembles de données à travers lesquels je peux comparer et contraster les différences entre les différents algorithmes d'apprentissage automatique (Arbres de décision, Boosting, SVM et Réseaux de neurones)

Où puis-je trouver de tels ensembles de données? Que dois-je rechercher tout en envisageant un ensemble de données?

Ce serait formidable si vous pouviez pointer vers de bons ensembles de données et aussi me dire ce qui en fait un bon ensemble de données?


6
Je me demande si cette question ne convient pas mieux à opendata.stackexchange.com ... En ce qui concerne les ensembles de données, la plupart des manuels mentionnent de tels ensembles de données et les rendent disponibles, beaucoup sont déjà disponibles dans des logiciels statistiques ou dans des bibliothèques pour de tels logiciels. Vous pouvez également voir archive.ics.uci.edu/ml/datasets.html . Bien sûr, une autre question est de savoir ce qui rend certains ensembles de données «bons» pour l'apprentissage et certains «mauvais» - c'est une question intéressante.
Tim

Vous trouverez des ensembles de données sous forme de packages sur CRAN, comme: ElemStatLearn et autres.
kjetil b halvorsen

2
@Tim Parce qu'il y a un aspect pédagogique à cette question (par exemple, un exemple d'un "bon" ensemble de données à des fins d'apprentissage est celui qui montre où différents algorithmes donnent des résultats très différents) je pense qu'il est mieux adapté au CV qu'à OpenData.
Silverfish


@Silverfish: Cela a été discuté sur Meta - «Questions sur les ensembles de données»: exceptions possibles? - & il semble y avoir eu un accord général avec votre point de vue. Mais je pense toujours que ce q. est assez large - qu'est-ce qui le distingue clairement de la recherche d'échantillons de données disponibles gratuitement ?
Scortchi - Réintégrer Monica

Réponses:


16

Les jeux de données des sites suivants sont disponibles gratuitement. Ces ensembles de données ont été utilisés pour enseigner les algorithmes ML aux étudiants parce que pour la plupart, il existe des descriptions avec les ensembles de données. En outre, il a été mentionné le type d'algorithmes applicables.

  1. Référentiel UCI- Machine Learning
  2. ML Comp
  3. Image de Mammo
  4. Mulan

11

Kaggle dispose d'une multitude d'ensembles de données que vous pouvez utiliser pour vous entraîner.

(Je suis surpris que cela n'ait pas été mentionné jusqu'à présent!)

Il a deux choses (parmi beaucoup d'autres) qui en font une ressource très précieuse:

  • Beaucoup de jeux de données propres. Bien que les ensembles de données sans bruit ne soient pas vraiment représentatifs des ensembles de données du monde réel, ils sont particulièrement adaptés à votre objectif - déployer des algorithmes ML.
  • Vous pouvez également afficher les modèles ML d'autres pour le même ensemble de données, ce qui pourrait être un moyen amusant de détecter des hacks en cours de route. Il va sans dire que le type d'exposition que vous obtenez en apprenant des meilleurs praticiens est, comme pour toute autre chose, super utile.

1
Cela devrait vraiment être la meilleure réponse car, en plus d'une grande variété d'ensembles de données, les forums pour chaque défi sont une ressource inestimable pour choisir des techniques et des astuces, ainsi que des exemples de code.
Alex R.

2

Tout d'abord, je vous recommande de commencer par les exemples de données fournis avec le logiciel. La plupart des distributions de logiciels incluent des exemples de données que vous pouvez utiliser pour vous familiariser avec l'algorithme sans avoir à traiter les types de données et à lutter contre les données dans le bon format pour l'algorithme. Même si vous créez un algorithme à partir de zéro, vous pouvez commencer avec l'exemple d'une implémentation similaire et comparer les performances.

Deuxièmement, je recommanderais d'expérimenter avec des ensembles de données synthétiques pour avoir une idée de la façon dont l'algorithme fonctionne lorsque vous savez comment les données ont été générées et le rapport signal / bruit.

Dans R, vous pouvez répertorier tous les ensembles de données dans les packages actuellement installés avec cette commande:

data(package = installed.packages()[, 1])

Le package R mlbench possède de vrais ensembles de données et peut générer des ensembles de données synthétiques qui sont utiles pour étudier les performances des algorithmes.

Scikit-learn de Python contient des exemples de données et génère également un jeu de données synthétique / jouet.

SAS propose un ensemble de données de formation à télécharger et les exemples de données SPSS sont installés avec le logiciel à l'adresse C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples

Enfin, je regarderais les données dans la nature. Je comparerais les performances de différents algorithmes et paramètres de réglage sur des ensembles de données réels. Cela nécessite généralement beaucoup plus de travail car vous trouverez rarement un ensemble de données avec des types de données et des structures que vous pouvez insérer directement dans vos algorithmes.

Pour les données dans la nature, je recommanderais:

Archive des jeux de données de reddit

Liste de KDnugget


1
Pour ceux qui n'ont pas de R et ne veulent pas le télécharger juste pour avoir accès à ces jeux de données, les jeux de données et les descriptions sont disponibles en ligne ici .
gung - Rétablir Monica

0

L' ensemble de données Iris haut la main. C'est aussi en base R.


1
Veuillez répondre à la partie substantielle de la question: "... dites-moi également ce qui en fait un bon ensemble de données?"
whuber

0

À mon avis, vous pouvez commencer par de petits ensembles de données qui n'ont pas trop de fonctionnalités.

Un exemple serait l' ensemble de données Iris (pour la classification). Il a 3 classes, 50 échantillons pour chaque classe totalisant 150 points de données. Une excellente ressource pour vous aider à explorer cet ensemble de données est cette série de vidéos de Data School.

Un autre ensemble de données à vérifier est l'ensemble de données Wine Quality du référentiel UCI -ML. Il a 4898 points de données avec 12 attributs.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.