Je vais essayer de répondre à vos questions, mais avant, je voudrais noter que l'utilisation du terme «grand ensemble de données» est trompeuse, car «grand» est un concept relatif . Vous devez fournir plus de détails. Si vous traitez avec des données d'enchères , ce fait affectera très probablement la sélection des outils , approches et algorithmes préférés pour votre analyse de données . J'espère que mes réflexions suivantes sur l'analyse des données répondront à vos sous-questions. Veuillez noter que la numérotation de mes points ne correspond pas à la numérotation de vos sous-questions. Cependant, je pense qu'il reflète mieux le flux de travail général d' analyse des données , au moins, comment je le comprends.
1) Premièrement, je pense que vous devez avoir au moins une sorte de modèle conceptuel en tête (ou, mieux, sur papier). Ce modèle devrait vous guider dans votre analyse exploratoire des données (EDA) . La présence d'une variable dépendante (DV) dans le modèle signifie que dans votre phase d' apprentissage automatique (ML) plus tard dans l'analyse, vous traiterez ce que l'on appelle un ML supervisé, par opposition au ML non supervisé en l'absence d'un DV identifié.
2) Deuxièmement, l' EDA est un élément crucial. À mon humble avis, l'EDA devrait inclure plusieurs itérations de production de statistiques descriptives et de visualisation des données , au fur et à mesure que vous affinez votre compréhension des données. Non seulement cette phase vous donnera des informations précieuses sur vos ensembles de données, mais elle alimentera votre prochaine phase importante - le nettoyage et la transformation des données . Le simple fait de jeter vos données brutes dans un logiciel statistique ne donnera pas grand-chose - pour toute analyse statistique valide , les données doivent être propres, correctes et cohérentes . C'est souvent la partie la plus longue et la plus laborieuse, mais absolument nécessaire. Pour plus de détails sur ce sujet, lisez ces beaux articles:http://vita.had.co.nz/papers/tidy-data.pdf (par Hadley Wickham) et http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (par Edwin de Jonge et Mark van der Loo).
3) Maintenant, comme vous l'espérez, avec l' EDA ainsi que le nettoyage et la transformation des données , vous êtes prêt à commencer des phases plus statistiquement impliquées. L'une de ces phases est l' analyse factorielle exploratoire (ALE) , qui vous permettra d'extraire la structure sous-jacente de vos données. Pour les ensembles de données comportant un grand nombre de variables, l'effet secondaire positif de l'EPT est la réduction de la dimensionnalité . Et, alors que dans ce sens, l'EFA est similaire à l' analyse des composants principaux (PCA)et d'autres approches de réduction de la dimensionnalité, je pense que l'EPT est plus important car il permet d'affiner votre modèle conceptuel des phénomènes que vos données "décrivent", donnant ainsi un sens à vos ensembles de données. Bien sûr, en plus de l'EFA, vous pouvez / devez effectuer une analyse de régression et appliquer des techniques d'apprentissage automatique , en fonction de vos résultats des phases précédentes.
Enfin, une note sur les outils logiciels . À mon avis, l'état actuel des progiciels statistiques est tel que pratiquement tous les progiciels majeurs proposent des offres comparables en termes de fonctionnalités. Si vous étudiez ou travaillez dans une organisation qui a certaines politiques et préférences en termes d'outils logiciels, vous êtes contraint par eux. Cependant, si ce n'est pas le cas, je recommanderais chaleureusement un logiciel statistique open source , basé sur votre confort avec son langage de programmation spécifique , sa courbe d'apprentissage et vos perspectives de carrière . Ma plateforme de choix actuelle est R Project, qui propose des logiciels statistiques matures, puissants, flexibles, étendus et ouverts, ainsi qu'un incroyable écosystème de packages, d'experts et de passionnés. D'autres choix intéressants incluent Python , Julia et des logiciels open source spécifiques pour le traitement des mégadonnées , tels que Hadoop , Spark , les bases de données NoSQL , WEKA . Pour plus d'exemples de logiciels open source pour l'exploration de données , qui incluent des logiciels statistiques et ML généraux et spécifiques, consultez cette section d'une page Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
MISE À JOUR: J'ai oublié de mentionner Rattle ( http://rattle.togaware.com ), qui est également un logiciel GUI orienté R open source très populaire pour l'exploration de données.