Je vais seconder le commentaire @suncoolsu: La dimensionnalité de votre ensemble de données n'est pas le seul critère qui devrait vous orienter vers un logiciel spécifique. Par exemple, si vous prévoyez de faire un clustering non supervisé ou d'utiliser PCA, il existe plusieurs outils dédiés qui font face à de grands ensembles de données, comme on le rencontre couramment dans les études génomiques.
Maintenant, R (64 bits) gère de grandes données assez bien, et vous avez toujours la possibilité d'utiliser le stockage sur disque au lieu d'accès à la RAM, mais voir CRAN Tâche Voir haute performance et calcul parallèle avec R . Le GLM standard pourra facilement accueillir 20 000 obs. (mais voir aussi speedglm ) dans un délai raisonnable, comme indiqué ci-dessous:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Pour donner une illustration plus concrète, j'ai utilisé R pour traiter et analyser de grandes données génétiques (800 individus x 800 k SNP , où le modèle statistique principal était un GLM stratifié avec plusieurs covariables (2 min); cela a été rendu possible grâce à R efficace et Codes C disponibles dans le package snpMatrix (en comparaison, le même type de modèle a pris environ 8 min en utilisant un logiciel C ++ dédié ( plink ). J'ai également travaillé sur une étude clinique (12k patients x 50 variables d'intérêt) et R correspond à mes besoins Enfin, pour autant que je sache, le package lme4 est le seul logiciel qui permet d'adapter le modèle à effets mixtes à des ensembles de données non équilibrés et volumineux (comme c'est le cas dans l'évaluation pédagogique à grande échelle).
Stata / SE est un autre logiciel qui peut gérer un grand ensemble de données . SAS et SPSS sont des logiciels basés sur des fichiers, ils gèrent donc de gros volumes de données. Une revue comparative des logiciels de datamining est disponible dans Data Mining Tools: Which One is Best for CRM . Pour la visualisation, il existe également de nombreuses options; peut-être un bon début est le graphisme de grands ensembles de données: visualiser un million ( revu dans le JSS par P Murrell), et tous les fils associés sur ce site.