Science des données unbalanced-classes

5

Devrais-je choisir un jeu de données «équilibré» ou un jeu de données «représentatif»?

Ma tâche d'apprentissage automatique consiste à séparer le trafic Internet bénin du trafic malveillant. Dans le scénario réel, la majorité (par exemple 90% ou plus) du trafic Internet est bénigne. Ainsi, j’ai pensé que je devrais également choisir une configuration de données similaire pour la formation de mes modèles. Mais …

48 machine-learning dataset unbalanced-classes

4

Guide rapide sur la formation d'ensembles de données très déséquilibrés

J'ai un problème de classification avec environ 1000 échantillons positifs et 10000 négatifs dans l'ensemble de formation. Cet ensemble de données est donc assez déséquilibré. La forêt aléatoire simple tente simplement de marquer tous les échantillons de test comme une classe majoritaire. Voici quelques bonnes réponses sur le sous-échantillonnage et …

29 machine-learning classification dataset unbalanced-classes

4

Données multiclasses déséquilibrées avec XGBoost

J'ai 3 classes avec cette distribution: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 Et j'utilise xgboostpour la classification. Je sais qu'il y a un paramètre appelé scale_pos_weight. Mais comment est-il géré pour le cas «multiclasse», et comment puis-je le configurer correctement?

20 classification xgboost multiclass-classification unbalanced-classes

4

Quelles sont les implications pour la formation d'un ensemble d'arbres avec des ensembles de données fortement biaisés?

J'ai un ensemble de données binaires très biaisé - j'ai 1000 fois plus d'exemples de la classe négative que de la classe positive. J'aimerais former un ensemble d'arbres (comme des arbres aléatoires supplémentaires ou une forêt aléatoire) sur ces données, mais il est difficile de créer des ensembles de données …

14 machine-learning feature-selection unbalanced-classes

2

Comment appliquez-vous SMOTE sur la classification de texte?

La technique de suréchantillonnage des minorités synthétiques (SMOTE) est une technique de suréchantillonnage utilisée dans un problème de jeu de données déséquilibré. Jusqu'à présent, j'ai une idée de comment l'appliquer sur des données génériques et structurées. Mais est-il possible de l'appliquer sur un problème de classification de texte? De quelle …

13 unbalanced-classes text smote

1

Combien de cellules LSTM dois-je utiliser?

Existe-t-il des règles générales (ou des règles réelles) concernant la quantité minimale, maximale et "raisonnable" de cellules LSTM que je devrais utiliser? Plus précisément, je me rapporte à BasicLSTMCell de TensorFlow et à la num_unitspropriété. Veuillez supposer que j'ai un problème de classification défini par: t - number of time …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Classes déséquilibrées - Comment minimiser les faux négatifs?

J'ai un ensemble de données qui a un attribut de classe binaire. Il y a 623 instances de classe +1 (cancer positif) et 101 671 instances de classe -1 (cancer négatif). J'ai essayé divers algorithmes (Naive Bayes, Random Forest, AODE, C4.5) et tous ont des taux de faux négatifs inacceptables. …

11 classification random-forest decision-trees unbalanced-classes

2

Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

4

Classe non équilibrée: class_weight pour les algorithmes ML dans Spark MLLib

Dans python sklearn, il existe plusieurs algorithmes (par exemple la régression, la forêt aléatoire ... etc.) qui ont le paramètre class_weight pour gérer les données non équilibrées. Cependant, je ne trouve pas un tel paramètre pour les algorithmes MLLib. Existe-t-il un plan d'implémentation de class_weight pour certains algorithmes MLLib? Ou …

8 machine-learning apache-spark unbalanced-classes weighted-data

Questions marquées «unbalanced-classes»