Jeu de données libre pour la classification très haute dimension [fermé]

35

Quels sont les ensembles de données librement disponibles pour la classification avec plus de 1000 entités (ou des points d’échantillons s’il contient des courbes)?

Il existe déjà un wiki de la communauté sur les jeux de données gratuits: Recherche d'échantillons de données disponibles gratuitement

Mais ici, il serait bien d’avoir une liste plus précise qui puisse être utilisée plus facilement . Je propose également les règles suivantes:

Un post par jeu de données
Aucun lien vers le jeu de données
chaque ensemble de données doit être associé à
- un nom (pour comprendre de quoi il s'agit) et un lien vers le jeu de données (les jeux de données R peuvent être nommés avec le nom du paquet)
- le nombre d'entités (disons que c'est p ) la taille de l'ensemble de données (disons que c'est n ) et le nombre d'étiquettes / classe (disons que c'est k )
- un taux d'erreur typique de votre expérience (indiquez l'algorithme utilisé en mots) ou de la littérature (dans ce dernier cas, reliez le document)

— robin girard
source

+1, mais ceux de NIPS2003 n’ont que train.labels - le papier de NIPS2003 indique clairement que "les étiquettes de validation et de jeu d’essais sont masquées".

— denis

Merci. Le commentaire sur NIPS est pour la réponse de @mbq.

— Robin Girard

Quelqu'un ici a-t-il un jeu de données de grande dimension avec plus de deux étiquettes de classe?

— hlin117

3

Dorothea
n = 1950
p = 100000 (0,1 M, la moitié est du bruit ajouté artificiellement)
k = 2 (~ 10x non équilibré)
From NIPS2003 .

— utilisateur88
source

Pouvez-vous expliquer en quoi c'est 100 000 fonctionnalités? Je regarde les données de formation et chaque ligne a peut-être 2500 nombres entiers par ligne.

— JeremyKun

Il s’agit d’un tableau

3

Gisette
n = 13500
p = 5000 (la moitié est du bruit ajouté artificiellement)
k = 2 (équilibré)
À partir de NIPS2003 .

— utilisateur88
source

3

Dexter
n = 2600
p = 20000 (10k + 53 est un bruit artificiel)
k = 2 (équilibré)
À partir de NIPS2003 .

— utilisateur88
source

Je ne comprends pas ... un ensemble par personne?

@robin & @mbq Je suggérerais de conserver un ensemble de données par publication. Ceci afin que les gens puissent indiquer par des votes lesquels des suggestions suggèrent, ils suggèrent / soutiennent également

— Peter Smit le

@ Peter, d'accord, je suis ton idée, j'ai changé la question en conséquence.

— robin girard

3

Arcene
n = 900
p = 10 000 (3k est du bruit ajouté artificiellement)
k = 2 (~ équilibré)
À partir de NIPS2003 .

— utilisateur88
source

2

Prostate (tableau d'expression génique)

k = 2
n = 48 + 52
p = 6033

Disponible via (parmi d'autres) R package Spls nom de l'ensemble de données: prostate

taux d'erreur = 3/102 (voir ici ) aussi je pense qu'il y a du papier qui montre le taux d'erreur 1/102. Je dirais que c'est un cas de test facile.

— robin girard
source