Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification):

id, age, income, gender, job category, monthly spend

dans laquelle se monthly spendtrouve la variable de réponse. Mais l'ensemble de données d'apprentissage contient environ 3 millions de lignes, et l'ensemble de données (qui contient id, age, income, gender, job categorymais pas de variable de réponse) à prévoir contient 1 million de lignes. Ma question est: y a-t-il des problèmes potentiels si je jette trop de lignes (3 millions dans ce cas) dans un modèle statistique? Je comprends que les dépenses de calcul sont l'une des préoccupations, y a-t-il d'autres préoccupations? Existe-t-il des livres / articles qui expliquent pleinement le problème de taille de l'ensemble de données?

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

— user2926523
source

Avoir trop de lignes n'entraîne pas de sur-ajustement. Avoir trop de colonnes le fait.

— Peter Flom

Parce que cette question repose sur plusieurs fausses hypothèses - que les gens hésitent à utiliser de nombreux cas pour des analyses et que la plupart des modèles statistiques ne peuvent pas gérer de grands ensembles de données - elle est susceptible d'accumuler des réponses non pertinentes ou déroutantes. Veuillez envisager de modifier votre question pour supprimer ces fausses déclarations.

— whuber

Cependant, vous n'avez toujours pas pris en compte ce que @whuber a dit. Les locaux sont faux. Il n'est pas vrai que «la plupart des modèles statistiques ne peuvent pas traiter d'énormes ensembles de données», vous n'obtiendrez donc pas de réponse utile à votre question. Il n'est pas vrai non plus que vous puissiez utiliser des informations sur toutes les personnes d'un pays à un moment donné (je suppose que c'est ce que vous entendez par "population").

— pkofod

L'ID est, s'il s'agit d'une analyse saine, pas une seule variable continue. L'ID est une variable catégorielle car les différences entre les individus ne correspondent pas à l'affectation numérique arbitraire qu'ils reçoivent. Cela signifie que vous avez 1 variable pour chaque individu dans l'analyse. Potentiellement des millions.

— AdamO

merci pour le commentaire, mais je ne comprends toujours pas pourquoi je ne peux pas utiliser les informations sur toutes les personnes dans un pays à un moment donné (ceci est un exemple artificiel, alors supposons que j'ai ces informations)?

— user2926523

Réponses:

Vous pouvez rencontrer deux types de problèmes:

1) Problèmes informatiques car l'ensemble de données est trop volumineux. De nos jours, quelques millions de lignes avec 6 colonnes ne sont tout simplement pas si grandes. Mais, selon votre programme, votre ordinateur, votre quantité de RAM et probablement d'autres choses, cela pourrait s'enliser.

2) Problèmes statistiques. Ici, un problème comme celui que vous discutez aura un "problème" que je connais: même de minuscules effets seront très importants. Ce n'est pas vraiment un problème avec la régression, c'est un problème avec les valeurs de p. Mieux vaut regarder les tailles d'effet (paramètres de régression).

3) Un autre type de problème avec votre modèle n'est pas dû au nombre de lignes, mais à la nature de la variable de réponse (dépenses mensuelles). Bien que la régression OLS ne fasse aucune hypothèse sur la distribution de la réponse (uniquement sur l'erreur), néanmoins, les modèles avec de l'argent comme variable dépendante ont souvent des erreurs non normales. De plus, il est souvent logique, sur le fond, de prendre le journal de la réponse. Que ce soit le cas dans votre cas dépend exactement de ce que vous essayez de faire.

— Peter Flom
source

Bonjour Peter, pouvez-vous expliquer plus en détail pourquoi la variable de réponse (c'est-à-dire les dépenses mensuelles) doit être prise en compte? Quel bénéfice pouvons-nous en retirer?

— shihpeng

Sûr. Les valeurs monétaires doivent souvent être enregistrées. Nous pensons à l'argent en termes multiplicatifs et non additifs. Si vous passez de 1010, ce n'est rien. Si vous passez de 20, c'est énorme.

1000 t o

$1000 to$

10 t o

$10 to$

— Peter Flom

Ce qui est important, c'est le nombre d'individus (rangées) par rapport au nombre de coefficients que vous devez estimer pour le modèle que vous souhaitez adapter. Les règles de base typiques suggèrent environ 20 observations par coefficient au minimum, vous devriez donc être en mesure d'estimer jusqu'à 150 000 coefficients, sûrement plus qu'adéquat pour vos quatre prédicteurs.

En fait, vous avez une opportunité, pas un problème, dans ce cas: adapter un modèle plutôt complexe comprenant des relations non linéaires de la réponse aux prédicteurs, et des interactions entre les prédicteurs; qui peut prédire la réponse beaucoup mieux qu'une réponse plus simple dans laquelle les relations de la réponse aux prédicteurs sont supposées être linéaires et additives.

— Scortchi - Réintégrer Monica
source