Tout d'abord, je vous recommande de commencer par les exemples de données fournis avec le logiciel. La plupart des distributions de logiciels incluent des exemples de données que vous pouvez utiliser pour vous familiariser avec l'algorithme sans avoir à traiter les types de données et à lutter contre les données dans le bon format pour l'algorithme. Même si vous créez un algorithme à partir de zéro, vous pouvez commencer avec l'exemple d'une implémentation similaire et comparer les performances.
Deuxièmement, je recommanderais d'expérimenter avec des ensembles de données synthétiques pour avoir une idée de la façon dont l'algorithme fonctionne lorsque vous savez comment les données ont été générées et le rapport signal / bruit.
Dans R, vous pouvez répertorier tous les ensembles de données dans les packages actuellement installés avec cette commande:
data(package = installed.packages()[, 1])
Le package R mlbench possède de vrais ensembles de données et peut générer des ensembles de données synthétiques qui sont utiles pour étudier les performances des algorithmes.
Scikit-learn de Python contient des exemples de données et génère également un jeu de données synthétique / jouet.
SAS propose un ensemble de données de formation à télécharger et les exemples de données SPSS sont installés avec le logiciel à l'adresse C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
Enfin, je regarderais les données dans la nature. Je comparerais les performances de différents algorithmes et paramètres de réglage sur des ensembles de données réels. Cela nécessite généralement beaucoup plus de travail car vous trouverez rarement un ensemble de données avec des types de données et des structures que vous pouvez insérer directement dans vos algorithmes.
Pour les données dans la nature, je recommanderais:
Archive des jeux de données de reddit
Liste de KDnugget