J'ai un ensemble de données qui contient environ 100 000 échantillons de 50 classes. J'utilise SVM avec un noyau RBF pour former et prédire de nouvelles données. Le problème est que l'ensemble de données est biaisé vers différentes classes. Par exemple, Classe 1 - 30 (~ 3% chacune), Classe 31 …
Je travaille sur la classification des textes où j'ai 39 catégories / classes et 8,5 millions d'enregistrements. (À l'avenir, les données et les catégories augmenteront). La structure ou le format de mes données est le suivant. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display …
Supposons que je m'intéresse à trois classes , c 2 , c 3 . Mais mon jeu de données contient en fait plusieurs autres classes réelles ( c j ) n j = 4 .c1c1c_1c2c2c_2c3c3c_3(cj)nj=4(cj)j=4n(c_j)_{j=4}^n La réponse évidente est de définir une nouvelle classe c 4 qui fait référence à …
J'ai un ensemble de données composé de séries chronologiques (8 points) avec environ 40 dimensions (donc chaque série temporelle est de 8 par 40). Le résultat correspondant (les résultats possibles pour les catégories) est soit 0 soit 1. Quelle serait la meilleure approche pour concevoir un classifieur pour des séries …
Mon ensemble de données est composé de séquences vectorielles. Chaque vecteur a 50 dimensions réelles. Le nombre de vecteurs dans une séquence va de 3-5 à 10-15. En d'autres termes, la longueur d'une séquence n'est pas fixe. Une bonne partie des séquences (pas des vecteurs!) Sont annotées avec une étiquette …
Problème J'ai essayé d'utiliser des baies naïves sur un ensemble de données étiquetées de données sur la criminalité, mais j'ai obtenu de très mauvais résultats (précision de 7%). Naive Bayes fonctionne beaucoup plus rapidement que les autres alogorithmes que j'utilise, donc je voulais essayer de savoir pourquoi le score était …
Quels jeux de données disponibles gratuitement puis-je utiliser pour former un classificateur de texte? Nous essayons d'améliorer l'engagement de nos utilisateurs en lui recommandant le contenu le plus connexe, alors nous avons pensé que si nous classions notre contenu en fonction d'un sac de mots prédéfini, nous pouvons lui recommander …
J'ai un énorme ensemble de données à partir d'une base de données relationnelle pour laquelle je dois créer un modèle de classification. Normalement, pour cette situation, j'utiliserais la programmation logique inductive (ILP), mais en raison de circonstances spéciales, je ne peux pas le faire. L'autre façon de résoudre ce problème …
Je développe un modèle de prédiction en utilisant l'API Java Weka. Je peux prédire la classe de la nouvelle instance en utilisant le code suivant: double predictClass = classifer.classifyInstance(instance) Cependant, j'ai besoin d'une probabilité de classe au lieu d'une valeur de classe. Merci d'avance pour ton soutien.
J'ai des données d'entraînement étiquetées avec des valeurs binaires. J'ai également recueilli la confiance de chacune de ces étiquettes, c'est-à-dire que 0,8 confiance signifierait que 80% des étiqueteurs humains sont d'accord sur cette étiquette. Est-il possible d'utiliser ces données de confiance pour améliorer la précision de mon classificateur? Est-ce que …
J'apprends Support Vector Machines , et je ne peux pas comprendre comment une étiquette de classe est choisie pour un point de données dans un classificateur binaire. Est-il choisi par consensus par rapport à la classification dans chaque dimension de l'hyperplan séparateur?
Quelle est la meilleure façon de catégoriser les approches qui ont été développées pour traiter le problème de classe de déséquilibre? Cet article les classe en: Prétraitement: comprend le suréchantillonnage, le sous-échantillonnage et les méthodes hybrides, Apprentissage sensible aux coûts: comprend les méthodes directes et le méta-apprentissage que celui-ci divise …
J'ai deux jeux de données A et B qui sont exactement les mêmes en termes de nombre de colonnes, de nom de colonnes et de valeurs. La seule différence est l'ordre de ces colonnes. Je forme ensuite le modèle LightGBM sur chacun des deux ensembles de données avec les étapes …
J'utilise l'API Java Weka pour construire un modèle de classification. Je peux utiliser le filtre intégré de mots vides. Cependant, je dois utiliser un filtre personnalisé pour mon problème. Je ne sais pas comment utiliser un filtre de mots vides personnalisé dans l'API Java Weka.
Basé sur TPR et FPR, j'ai généré une courbe ROC pour mon modèle de classification binaire. Je ne sais pas, comment calculer la valeur AUC. Je serais très utile pour moi si vous pouvez m'aider à calculer la valeur AUC.
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.