Questions marquées «classification»

La classification statistique est le problème de l'identification de la sous-population à laquelle appartiennent de nouvelles observations, où l'identité de la sous-population est inconnue, sur la base d'un ensemble d'apprentissage de données contenant des observations dont la sous-population est connue. Ces classifications montreront donc un comportement variable qui peut être étudié par des statistiques.



1
Classificateurs d'apprentissage automatique Big-O ou complexité
Pour évaluer les performances d'un nouvel algorithme de classificateur, j'essaie de comparer la précision et la complexité (big-O dans la formation et la classification). De Machine Learning: un examen, j'obtiens une liste complète des classificateurs supervisés, ainsi qu'un tableau de précision entre les algorithmes et 44 problèmes de test du …

3
Pondération des données plus récentes dans le modèle de forêt aléatoire
J'entraîne un modèle de classification avec Random Forest pour faire la distinction entre 6 catégories. Mes données transactionnelles ont environ 60k + observations et 35 variables. Voici un exemple de son apparence approximative. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | …

1
Utilisation de LASSO sur une forêt aléatoire
Je voudrais créer une forêt aléatoire en utilisant le processus suivant: Construisez un arbre sur un échantillon aléatoire des données et des fonctionnalités en utilisant le gain d'informations pour déterminer les divisions Terminer un nœud feuille s'il dépasse une profondeur prédéfinie OU toute scission entraînerait un nombre de feuilles inférieur …




1
Lorsque des classes déséquilibrées sont sur / sous-échantillonnées, maximiser la précision diffère-t-il de minimiser les coûts de mauvaise classification?
Tout d'abord, je voudrais décrire quelques dispositions courantes que les livres d'exploration de données utilisent pour expliquer comment traiter les ensembles de données non équilibrés . Habituellement, la section principale est intitulée Ensembles de données non équilibrés et couvre ces deux sous-sections: Techniques de classification et d'échantillonnage sensibles aux coûts. …


2
Pourquoi l'estimation d'erreur OOB de la forêt aléatoire s'améliore-t-elle lorsque le nombre d'entités sélectionnées diminue?
J'applique un algorithme de forêt aléatoire en tant que classificateur sur un ensemble de données de microréseaux qui sont divisés en deux groupes connus avec des milliers de fonctionnalités. Après l'exécution initiale, je regarde l'importance des fonctionnalités et réexécute l'algorithme d'arbre avec les fonctionnalités les plus importantes 5, 10 et …


1
Caret glmnet vs cv.glmnet
Il semble y avoir beaucoup de confusion dans la comparaison de l'utilisation à l' glmnetintérieur caretpour rechercher un lambda optimal et à utiliser cv.glmnetpour faire la même tâche. De nombreuses questions ont été posées, par exemple: Modèle de classification train.glmnet vs cv.glmnet? Quelle est la bonne façon d'utiliser glmnet avec …

1
GAM vs LOESS vs splines
Contexte : Je veux tracer une ligne dans un nuage de points qui n'apparaît pas paramétrique, donc j'utilise geom_smooth()in ggplotin R. Il retourne automatiquement geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.