Questions marquées «classification»

La classification statistique est le problème de l'identification de la sous-population à laquelle appartiennent de nouvelles observations, où l'identité de la sous-population est inconnue, sur la base d'un ensemble d'apprentissage de données contenant des observations dont la sous-population est connue. Ces classifications montreront donc un comportement variable qui peut être étudié par des statistiques.



2
Quand la régression logistique est-elle appropriée?
J'apprends actuellement moi-même comment faire la classification, et plus précisément, j'examine trois méthodes: les machines à vecteurs de support, les réseaux de neurones et la régression logistique. Ce que j'essaie de comprendre, c'est pourquoi la régression logistique fonctionnerait mieux que les deux autres. D'après ma compréhension de la régression logistique, …

2
Pourquoi le n-gramme est-il utilisé dans l'identification de la langue du texte au lieu des mots?
Dans deux bibliothèques d'identification de langue populaires, Compact Language Detector 2 pour C ++ et détecteur de langue pour java, les deux utilisaient des n-grammes (basés sur des caractères) pour extraire des fonctionnalités de texte. Pourquoi un sac de mots (un seul mot / dictionnaire) n'est-il pas utilisé, et quels …

2
Comment calculer les poids des critères Fisher?
J'étudie la reconnaissance des formes et l'apprentissage automatique, et je suis tombé sur la question suivante. Considérons un problème de classification à deux classes avec une probabilité de classe antérieure égaleP(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} et la distribution des instances dans chaque classe donnée par p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 …

5
Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?
J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Comment former les HMM pour la classification?
Je comprends donc que lorsque vous formez des HMM à la classification, l'approche standard est la suivante: Séparez vos ensembles de données dans les ensembles de données pour chaque classe Former un HMM par classe Sur l'ensemble de test, comparez la probabilité de chaque modèle de classer chaque fenêtre Mais …


2
Pourquoi l'augmentation du nombre de fonctionnalités réduit-elle les performances?
J'essaie de comprendre pourquoi l'augmentation du nombre de fonctionnalités pourrait réduire les performances. J'utilise actuellement un classificateur LDA qui fonctionne mieux de manière bivariée parmi certaines fonctionnalités, mais pire quand on regarde plus de fonctionnalités. Ma précision de classification est effectuée à l'aide d'un xval stratifié 10 fois. Existe-t-il un …


2
PCA et forêts aléatoires
Pour un récent concours Kaggle, j'ai (manuellement) défini 10 fonctionnalités supplémentaires pour mon ensemble d'entraînement, qui seraient ensuite utilisées pour former un classificateur de forêts aléatoires. J'ai décidé d'exécuter PCA sur l'ensemble de données avec les nouvelles fonctionnalités, pour voir comment elles se comparaient les unes aux autres. J'ai trouvé …





En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.