Science des données classification

4

J'ai un ensemble de données qui contient environ 100 000 échantillons de 50 classes. J'utilise SVM avec un noyau RBF pour former et prédire de nouvelles données. Le problème est que l'ensemble de données est biaisé vers différentes classes. Par exemple, Classe 1 - 30 (~ 3% chacune), Classe 31 …

10 classification svm

1

Des données déséquilibrées provoquent une mauvaise classification sur l'ensemble de données multiclasses

Je travaille sur la classification des textes où j'ai 39 catégories / classes et 8,5 millions d'enregistrements. (À l'avenir, les données et les catégories augmenteront). La structure ou le format de mes données est le suivant. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display …

9 machine-learning python classification scikit-learn multiclass-classification

1

Comment aborder un problème de classification dans lequel l'une des classes est définie par «pas les autres»

Supposons que je m'intéresse à trois classes , c 2 , c 3 . Mais mon jeu de données contient en fait plusieurs autres classes réelles ( c j ) n j = 4 .c1c1c_1c2c2c_2c3c3c_3(cj)nj=4(cj)j=4n(c_j)_{j=4}^n La réponse évidente est de définir une nouvelle classe c 4 qui fait référence à …

9 machine-learning classification

4

Classer des séries chronologiques multivariées

J'ai un ensemble de données composé de séries chronologiques (8 points) avec environ 40 dimensions (donc chaque série temporelle est de 8 par 40). Le résultat correspondant (les résultats possibles pour les catégories) est soit 0 soit 1. Quelle serait la meilleure approche pour concevoir un classifieur pour des séries …

9 classification time-series pca

2

Classification des séquences vectorielles

Mon ensemble de données est composé de séquences vectorielles. Chaque vecteur a 50 dimensions réelles. Le nombre de vecteurs dans une séquence va de 3-5 à 10-15. En d'autres termes, la longueur d'une séquence n'est pas fixe. Une bonne partie des séquences (pas des vecteurs!) Sont annotées avec une étiquette …

9 classification sequence

2

Implémentation de Bayes Naive complémentaires en python?

Problème J'ai essayé d'utiliser des baies naïves sur un ensemble de données étiquetées de données sur la criminalité, mais j'ai obtenu de très mauvais résultats (précision de 7%). Naive Bayes fonctionne beaucoup plus rapidement que les autres alogorithmes que j'utilise, donc je voulais essayer de savoir pourquoi le score était …

9 machine-learning classification python naive-bayes-classifier

4

Suggérer des ensembles de données de formation sur le classificateur de texte

Quels jeux de données disponibles gratuitement puis-je utiliser pour former un classificateur de texte? Nous essayons d'améliorer l'engagement de nos utilisateurs en lui recommandant le contenu le plus connexe, alors nous avons pensé que si nous classions notre contenu en fonction d'un sac de mots prédéfini, nous pouvons lui recommander …

9 machine-learning classification dataset clustering text-mining

1

Exploration de données relationnelles sans ILP

J'ai un énorme ensemble de données à partir d'une base de données relationnelle pour laquelle je dois créer un modèle de classification. Normalement, pour cette situation, j'utiliserais la programmation logique inductive (ILP), mais en raison de circonstances spéciales, je ne peux pas le faire. L'autre façon de résoudre ce problème …

9 data-mining classification relational-dbms

2

Comment calculer la probabilité de prédiction d'une classe dans Java Weka Api?

Je développe un modèle de prédiction en utilisant l'API Java Weka. Je peux prédire la classe de la nouvelle instance en utilisant le code suivant: double predictClass = classifer.classifyInstance(instance) Cependant, j'ai besoin d'une probabilité de classe au lieu d'une valeur de classe. Merci d'avance pour ton soutien.

9 classification java weka

1

La confiance de l'étiquette de formation peut-elle être utilisée pour améliorer la précision des prédictions?

J'ai des données d'entraînement étiquetées avec des valeurs binaires. J'ai également recueilli la confiance de chacune de ces étiquettes, c'est-à-dire que 0,8 confiance signifierait que 80% des étiqueteurs humains sont d'accord sur cette étiquette. Est-il possible d'utiliser ces données de confiance pour améliorer la précision de mon classificateur? Est-ce que …

9 machine-learning classification regression scikit-learn svm

1

En utilisant SVM comme classificateur binaire, l'étiquette d'un point de données est-elle choisie par consensus?

J'apprends Support Vector Machines , et je ne peux pas comprendre comment une étiquette de classe est choisie pour un point de données dans un classificateur binaire. Est-il choisi par consensus par rapport à la classification dans chaque dimension de l'hyperplan séparateur?

9 svm classification binary

1

Catégorisation des approches pour faire face aux classes déséquilibrées

Quelle est la meilleure façon de catégoriser les approches qui ont été développées pour traiter le problème de classe de déséquilibre? Cet article les classe en: Prétraitement: comprend le suréchantillonnage, le sous-échantillonnage et les méthodes hybrides, Apprentissage sensible aux coûts: comprend les méthodes directes et le méta-apprentissage que celui-ci divise …

8 machine-learning classification class-imbalance

2

LightGBM résulte différemment selon l'ordre des données

J'ai deux jeux de données A et B qui sont exactement les mêmes en termes de nombre de colonnes, de nom de colonnes et de valeurs. La seule différence est l'ordre de ces colonnes. Je forme ensuite le modèle LightGBM sur chacun des deux ensembles de données avec les étapes …

8 machine-learning classification

2

Comment utiliser un filtre de mots vides personnalisé dans l'API Java Weka?

J'utilise l'API Java Weka pour construire un modèle de classification. Je peux utiliser le filtre intégré de mots vides. Cependant, je dois utiliser un filtre personnalisé pour mon problème. Je ne sais pas comment utiliser un filtre de mots vides personnalisé dans l'API Java Weka.

8 classification java weka

1

Comment puis-je calculer l'ASC à partir de la courbe ROC pour la classification?

Basé sur TPR et FPR, j'ai généré une courbe ROC pour mon modèle de classification binaire. Je ne sais pas, comment calculer la valeur AUC. Je serais très utile pour moi si vous pouvez m'aider à calculer la valeur AUC.

8 machine-learning classification

Questions marquées «classification»