L'exploration de données est classée comme descriptive ou prédictive. L'exploration de données descriptive consiste à rechercher des ensembles de données massifs et à découvrir les emplacements de structures ou de relations inattendues, les modèles, les tendances, les clusters et les valeurs aberrantes dans les données. D'autre part, Predictive consiste à créer des modèles et des procédures de régression, de classification, de reconnaissance de formes ou de tâches d'apprentissage automatique, et à évaluer la précision prédictive de ces modèles et procédures lorsqu'ils sont appliqués à de nouvelles données.
Le mécanisme utilisé pour rechercher des motifs ou une structure dans des données de grande dimension peut être manuel ou automatisé; la recherche peut nécessiter l'interrogation interactive d'un système de gestion de base de données, ou elle peut impliquer l'utilisation d'un logiciel de visualisation pour détecter les anomalies dans les données. En termes d'apprentissage automatique, l'exploration de données descriptive est connue sous le nom d'apprentissage non supervisé, tandis que l'exploration de données prédictive est connue sous le nom d'apprentissage supervisé.
La plupart des méthodes utilisées dans l'exploration de données sont liées aux méthodes développées dans les statistiques et l'apprentissage automatique. Au premier rang de ces méthodes figurent les sujets généraux de régression, de classification, de regroupement et de visualisation. En raison de la taille énorme des ensembles de données, de nombreuses applications d'exploration de données se concentrent sur les techniques de réduction de dimensionnalité (par exemple, la sélection de variables) et les situations dans lesquelles des données de grande dimension sont soupçonnées de se trouver sur des hyperplans de dimension inférieure. Une attention récente a été portée aux méthodes d'identification des données de grande dimension reposant sur des surfaces ou des variétés non linéaires.
Il existe également des situations dans l'exploration de données où l'inférence statistique - dans son sens classique - n'a aucun sens ou est d'une validité douteuse: la première se produit lorsque nous avons toute la population à rechercher des réponses, et la seconde se produit lorsqu'un ensemble de données est un Échantillon «de convenance» plutôt que d'être un échantillon aléatoire tiré d'une population importante. Lorsque les données sont collectées dans le temps (par exemple, les transactions de détail, les transactions boursières, les dossiers des patients, les relevés météorologiques), l'échantillonnage peut également ne pas avoir de sens; l'ordre chronologique des observations est crucial pour comprendre le phénomène générant les données, et traiter les observations comme indépendantes lorsqu'elles peuvent être fortement corrélées fournira des résultats biaisés.
En plus de la théorie et des méthodes statistiques, les composants centraux de l'exploration de données sont l'efficacité de calcul et de calcul, le traitement automatique des données, les techniques de visualisation de données dynamiques et interactives et le développement d'algorithmes.
L'un des problèmes les plus importants de l'exploration de données est le problème de calcul de l' évolutivité . Les algorithmes développés pour calculer les méthodes statistiques exploratoires et confirmatoires standard ont été conçus pour être rapides et efficaces sur le plan informatique lorsqu'ils sont appliqués à des ensembles de données de petite et moyenne taille; pourtant, il a été démontré que la plupart de ces algorithmes ne sont pas à la hauteur du défi de gérer d’énormes ensembles de données. À mesure que les ensembles de données se développent, de nombreux algorithmes existants montrent une tendance à ralentir considérablement (voire à s'arrêter).