Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification):
id, age, income, gender, job category, monthly spend
dans laquelle se monthly spend
trouve la variable de réponse. Mais l'ensemble de données d'apprentissage contient environ 3 millions de lignes, et l'ensemble de données (qui contient id, age, income, gender, job category
mais pas de variable de réponse) à prévoir contient 1 million de lignes. Ma question est: y a-t-il des problèmes potentiels si je jette trop de lignes (3 millions dans ce cas) dans un modèle statistique? Je comprends que les dépenses de calcul sont l'une des préoccupations, y a-t-il d'autres préoccupations? Existe-t-il des livres / articles qui expliquent pleinement le problème de taille de l'ensemble de données?