Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?


8

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification):

id, age, income, gender, job category, monthly spend

dans laquelle se monthly spendtrouve la variable de réponse. Mais l'ensemble de données d'apprentissage contient environ 3 millions de lignes, et l'ensemble de données (qui contient id, age, income, gender, job categorymais pas de variable de réponse) à prévoir contient 1 million de lignes. Ma question est: y a-t-il des problèmes potentiels si je jette trop de lignes (3 millions dans ce cas) dans un modèle statistique? Je comprends que les dépenses de calcul sont l'une des préoccupations, y a-t-il d'autres préoccupations? Existe-t-il des livres / articles qui expliquent pleinement le problème de taille de l'ensemble de données?

modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

15
Avoir trop de lignes n'entraîne pas de sur-ajustement. Avoir trop de colonnes le fait.
Peter Flom

5
Parce que cette question repose sur plusieurs fausses hypothèses - que les gens hésitent à utiliser de nombreux cas pour des analyses et que la plupart des modèles statistiques ne peuvent pas gérer de grands ensembles de données - elle est susceptible d'accumuler des réponses non pertinentes ou déroutantes. Veuillez envisager de modifier votre question pour supprimer ces fausses déclarations.
whuber

Cependant, vous n'avez toujours pas pris en compte ce que @whuber a dit. Les locaux sont faux. Il n'est pas vrai que «la plupart des modèles statistiques ne peuvent pas traiter d'énormes ensembles de données», vous n'obtiendrez donc pas de réponse utile à votre question. Il n'est pas vrai non plus que vous puissiez utiliser des informations sur toutes les personnes d'un pays à un moment donné (je suppose que c'est ce que vous entendez par "population").
pkofod

2
L'ID est, s'il s'agit d'une analyse saine, pas une seule variable continue. L'ID est une variable catégorielle car les différences entre les individus ne correspondent pas à l'affectation numérique arbitraire qu'ils reçoivent. Cela signifie que vous avez 1 variable pour chaque individu dans l'analyse. Potentiellement des millions.
AdamO

merci pour le commentaire, mais je ne comprends toujours pas pourquoi je ne peux pas utiliser les informations sur toutes les personnes dans un pays à un moment donné (ceci est un exemple artificiel, alors supposons que j'ai ces informations)?
user2926523

Réponses:


12

Vous pouvez rencontrer deux types de problèmes:

1) Problèmes informatiques car l'ensemble de données est trop volumineux. De nos jours, quelques millions de lignes avec 6 colonnes ne sont tout simplement pas si grandes. Mais, selon votre programme, votre ordinateur, votre quantité de RAM et probablement d'autres choses, cela pourrait s'enliser.

2) Problèmes statistiques. Ici, un problème comme celui que vous discutez aura un "problème" que je connais: même de minuscules effets seront très importants. Ce n'est pas vraiment un problème avec la régression, c'est un problème avec les valeurs de p. Mieux vaut regarder les tailles d'effet (paramètres de régression).

3) Un autre type de problème avec votre modèle n'est pas dû au nombre de lignes, mais à la nature de la variable de réponse (dépenses mensuelles). Bien que la régression OLS ne fasse aucune hypothèse sur la distribution de la réponse (uniquement sur l'erreur), néanmoins, les modèles avec de l'argent comme variable dépendante ont souvent des erreurs non normales. De plus, il est souvent logique, sur le fond, de prendre le journal de la réponse. Que ce soit le cas dans votre cas dépend exactement de ce que vous essayez de faire.


Bonjour Peter, pouvez-vous expliquer plus en détail pourquoi la variable de réponse (c'est-à-dire les dépenses mensuelles) doit être prise en compte? Quel bénéfice pouvons-nous en retirer?
shihpeng

1
Sûr. Les valeurs monétaires doivent souvent être enregistrées. Nous pensons à l'argent en termes multiplicatifs et non additifs. Si vous passez de 1010, ce n'est rien. Si vous passez de 20, c'est énorme. 1000to10to
Peter Flom

2

Ce qui est important, c'est le nombre d'individus (rangées) par rapport au nombre de coefficients que vous devez estimer pour le modèle que vous souhaitez adapter. Les règles de base typiques suggèrent environ 20 observations par coefficient au minimum, vous devriez donc être en mesure d'estimer jusqu'à 150 000 coefficients, sûrement plus qu'adéquat pour vos quatre prédicteurs.

En fait, vous avez une opportunité, pas un problème, dans ce cas: adapter un modèle plutôt complexe comprenant des relations non linéaires de la réponse aux prédicteurs, et des interactions entre les prédicteurs; qui peut prédire la réponse beaucoup mieux qu'une réponse plus simple dans laquelle les relations de la réponse aux prédicteurs sont supposées être linéaires et additives.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.