Questions marquées «data-mining»

L'exploration de données utilise des méthodes de l'intelligence artificielle dans un contexte de base de données pour découvrir des modèles inconnus auparavant. En tant que telles, les méthodes ne sont généralement pas supervisées. Il est étroitement lié mais pas identique à l'apprentissage automatique. Les tâches clés de l'exploration de données sont l'analyse des clusters, la détection des valeurs aberrantes et l'extraction des règles d'association.

2
Comment regrouper des chaînes par thèmes communs?
J'essaie de regrouper, par exemple, des chaînes de programmation avec d'autres chaînes de programmation, des chaînes de physique avec d'autres chaînes de physique, etc., pour un large éventail de sujets. Malgré l'aspect linguistique théorique flagrant du problème, je cherche à le faire en utilisant la programmation / le logiciel. Le …



1
Exemples documentés / reproductibles d'applications réussies dans le monde réel de méthodes économétriques?
Cette question peut sembler très large, mais voici ce que je recherche. Je sais qu'il existe de nombreux excellents livres sur les méthodes économétriques et de nombreux excellents articles de présentation sur les techniques économétriques. Il existe même d'excellents exemples reproductibles d'économétrie, comme décrit dans cette question CrossValidated . En …

2
Quelle est la différence entre l'analyse de données fonctionnelles et l'analyse de données de grande dimension
Il existe de nombreuses références dans la littérature statistique aux " données fonctionnelles " (c'est-à-dire les données qui sont des courbes) et, en parallèle, aux " données de haute dimension " (c'est-à-dire lorsque les données sont des vecteurs de grande dimension). Ma question concerne la différence entre les deux types …



2
Fréquence maximale et fermée - Réponse incluse
My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4:A,C,D,E4:A,C,D,E4:A,C,D,E 5: C,D,E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E Je souhaite connaître les ensembles d'éléments fréquents maximaux et les ensembles d'éléments fréquents fermés …

1
R régression linéaire variable catégorielle valeur «cachée»
Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant, la …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
Estimation d'erreur hors du sac pour augmenter?
Dans Random Forest, chaque arbre est cultivé en parallèle sur un échantillon boostrap unique des données. Étant donné que chaque échantillon boostrap devrait contenir environ 63% d'observations uniques, cela laisse environ 37% d'observations, qui peuvent être utilisées pour tester l'arbre. Maintenant, il semble que dans le boosting de gradient stochastique, …



1
Utilisation d'outils d'exploration de texte / de langage naturel pour l'économétrie
Je ne sais pas si cette question est pleinement appropriée ici, sinon, veuillez la supprimer. Je suis un étudiant diplômé en économie. Pour un projet qui étudie les problèmes des assurances sociales, j'ai accès à un grand nombre de cas administratifs (> 200k) qui traitent des évaluations d'éligibilité. Ces rapports …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.