Questions marquées «data-mining»

L'exploration de données utilise des méthodes de l'intelligence artificielle dans un contexte de base de données pour découvrir des modèles inconnus auparavant. En tant que telles, les méthodes ne sont généralement pas supervisées. Il est étroitement lié mais pas identique à l'apprentissage automatique. Les tâches clés de l'exploration de données sont l'analyse des clusters, la détection des valeurs aberrantes et l'extraction des règles d'association.

2
Déterminer le plus grand contributeur d'un groupe
Je ne connais pas grand-chose aux statistiques, alors restez avec moi. Disons que j'ai un ensemble de 1000 travailleurs. Je veux savoir qui est le travailleur le plus acharné, mais je ne peux mesurer que la quantité de travail effectuée en groupes de 1 à 100 personnes sur une heure …

2
Utilisation du paramètre Gamma avec des machines à vecteurs de support
Lors de l'utilisation libsvm, le paramètre est un paramètre de la fonction noyau. Sa valeur par défaut est configurée comme γ = 1γγ\gammaγ= 1nombre de fonctionnalités.γ=1nombre de fonctionnalités.\gamma = \frac{1}{\text{number of features.}} Existe-t-il des directives théoriques pour la configuration de ce paramètre en plus des méthodes existantes, par exemple, la …


2
Supprimer les doublons de l'ensemble d'entraînement pour la classification
Disons que j'ai un tas de lignes pour un problème de classification: X1,...XN,YX1,...XN,YX_1, ... X_N, Y Où sont les entités / prédicteurs et est la classe à laquelle la combinaison d' entités de la ligne appartient.X1,...,XNX1,...,XNX_1, ..., X_NYYY De nombreuses combinaisons de fonctionnalités et leurs classes sont répétées dans l'ensemble …


3
Algorithme Apriori en anglais simple?
J'ai lu un article wiki sur Apriori. J'ai du mal à comprendre le pruneau et l'étape Join. Quelqu'un peut-il m'expliquer comment l'algorithme Apriori fonctionne en termes simples (de telle sorte que les novices comme moi peuvent facilement comprendre)? Ce sera bien si quelqu'un explique le processus étape par étape qui …


2
Premiers pas avec le biclustering
J'ai fait des recherches occasionnelles sur Internet sur les biclusters. (J'ai lu l'article Wiki plusieurs fois.) Jusqu'à présent, il semble qu'il y ait peu de définitions ou de terminologie standard. Je me demandais s'il y avait des articles ou des livres standard que toute personne intéressée par les algorithmes pour …

2
Calculer la courbe ROC pour les données
Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
La forêt aléatoire est-elle une bonne option pour la classification des données déséquilibrées? [fermé]
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 3 ans . Malgré les approches ressemblantes et d'autres …

2
Ensemble de données de test très déséquilibré et données d'entraînement équilibrées dans la classification
J'ai un ensemble de formation avec environ 3000 instances positives et 3000 instances négatives. Mais mon ensemble de données de test est à peu près déséquilibré. L'ensemble positif n'a que 50 instances et le négatif a 1500 instances, ce qui entraîne une précision très faible. Existe-t-il des approches pour résoudre …


1
PANIER: Sélection du meilleur prédicteur de fractionnement lorsque les gains de diminution d'impureté sont égaux?
Ma question concerne les arbres de classification . Prenons l'exemple suivant de l'ensemble de données Iris: Je souhaite sélectionner manuellement le meilleur prédicteur pour la première division. Selon l'algorithme CART, la meilleure fonctionnalité pour effectuer un fractionnement est celle qui maximise la diminution de l'impureté de la partition, également appelée …


3
Détection de clusters dans une séquence binaire
J'ai une séquence binaire telle que 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Où les grappes de la plupart des 1 sont suivies d'un plus grand nombre de zéros, comme dans l'image ci-dessous (noir signifie 1): Je voudrais appliquer une technique (de préférence en R ou en Python) où je peux détecter automatiquement ces grappes de …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.