J'ai un gros problème de données avec un grand ensemble de données (prenez par exemple 50 millions de lignes et 200 colonnes). L'ensemble de données comprend environ 100 colonnes numériques et 100 colonnes catégorielles et une colonne de réponse qui représente un problème de classe binaire. La cardinalité de chacune des colonnes catégorielles est inférieure à 50.
Je veux savoir a priori si je dois opter pour des méthodes d'apprentissage en profondeur ou des méthodes basées sur des arbres d'ensemble (par exemple le boost de gradient, l'adaboost ou les forêts aléatoires). Existe-t-il une analyse exploratoire des données ou d'autres techniques qui peuvent m'aider à choisir une méthode plutôt qu'une autre?