Jeu de données libre pour la classification très haute dimension [fermé]


35

Quels sont les ensembles de données librement disponibles pour la classification avec plus de 1000 entités (ou des points d’échantillons s’il contient des courbes)?

Il existe déjà un wiki de la communauté sur les jeux de données gratuits: Recherche d'échantillons de données disponibles gratuitement

Mais ici, il serait bien d’avoir une liste plus précise qui puisse être utilisée plus facilement . Je propose également les règles suivantes:

  1. Un post par jeu de données
  2. Aucun lien vers le jeu de données
  3. chaque ensemble de données doit être associé à

    • un nom (pour comprendre de quoi il s'agit) et un lien vers le jeu de données (les jeux de données R peuvent être nommés avec le nom du paquet)

    • le nombre d'entités (disons que c'est p ) la taille de l'ensemble de données (disons que c'est n ) et le nombre d'étiquettes / classe (disons que c'est k )

    • un taux d'erreur typique de votre expérience (indiquez l'algorithme utilisé en mots) ou de la littérature (dans ce dernier cas, reliez le document)


+1, mais ceux de NIPS2003 n’ont que train.labels - le papier de NIPS2003 indique clairement que "les étiquettes de validation et de jeu d’essais sont masquées".
denis

Merci. Le commentaire sur NIPS est pour la réponse de @mbq.
Robin Girard

Quelqu'un ici a-t-il un jeu de données de grande dimension avec plus de deux étiquettes de classe?
hlin117

Réponses:


3

Dorothea
n = 1950
p = 100000 (0,1 M, la moitié est du bruit ajouté artificiellement)
k = 2 (~ 10x non équilibré)
From NIPS2003 .


Pouvez-vous expliquer en quoi c'est 100 000 fonctionnalités? Je regarde les données de formation et chaque ligne a peut-être 2500 nombres entiers par ligne.
JeremyKun

Il s’agit d’un tableau


3

Dexter
n = 2600
p = 20000 (10k + 53 est un bruit artificiel)
k = 2 (équilibré)
À partir de NIPS2003 .


Je ne comprends pas ... un ensemble par personne?

@robin & @mbq Je suggérerais de conserver un ensemble de données par publication. Ceci afin que les gens puissent indiquer par des votes lesquels des suggestions suggèrent, ils suggèrent / soutiennent également
Peter Smit le

@ Peter, d'accord, je suis ton idée, j'ai changé la question en conséquence.
robin girard


2

Prostate (tableau d'expression génique)

  • k = 2
  • n = 48 + 52
  • p = 6033

Disponible via (parmi d'autres) R package Spls nom de l'ensemble de données: prostate

taux d'erreur = 3/102 (voir ici ) aussi je pense qu'il y a du papier qui montre le taux d'erreur 1/102. Je dirais que c'est un cas de test facile.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.