Je sais qu'il existe une possibilité dans Keras avec le class_weightsdictionnaire de paramètres lors de l'ajustement, mais je n'ai trouvé aucun exemple. Quelqu'un aurait-il la gentillesse d'en fournir un? À propos, dans ce cas, la pratique appropriée consiste simplement à pondérer la classe minoritaire proportionnellement à sa sous-représentation.
Il semble que la similitude cosinus de deux caractéristiques ne soit que leur produit scalaire mis à l'échelle par le produit de leurs grandeurs. Quand la similarité de cosinus fait-elle une meilleure métrique de distance que le produit scalaire? Par exemple, la similarité entre le produit scalaire et le cosinus …
Je travaille sur la recherche, là où le besoin de classer l' un des trois cas GAGNANT = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mon …
J'ai un gros problème de données avec un grand ensemble de données (prenez par exemple 50 millions de lignes et 200 colonnes). L'ensemble de données comprend environ 100 colonnes numériques et 100 colonnes catégorielles et une colonne de réponse qui représente un problème de classe binaire. La cardinalité de chacune …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
J'ai un problème de classification avec environ 1000 échantillons positifs et 10000 négatifs dans l'ensemble de formation. Cet ensemble de données est donc assez déséquilibré. La forêt aléatoire simple tente simplement de marquer tous les échantillons de test comme une classe majoritaire. Voici quelques bonnes réponses sur le sous-échantillonnage et …
Quand utiliserait-on Random Forestplus SVMet vice versa? Je comprends cela cross-validationet la comparaison de modèles est un aspect important du choix d'un modèle, mais ici j'aimerais en savoir plus sur les règles de base et l'heuristique des deux méthodes. Quelqu'un peut-il expliquer les subtilités, les forces et les faiblesses des …
Notez que je fais tout en R. Le problème est le suivant: Fondamentalement, j'ai une liste de CV (CV). Certains candidats auront une expérience de travail avant et d'autres non. Le but ici est de: sur la base du texte de leur CV, je souhaite les classer dans différents secteurs …
Récemment, un de mes amis a été demandé si les algorithmes d'arbre de décision sont des algorithmes linéaires ou non linéaires dans une interview. J'ai essayé de chercher des réponses à cette question mais je n'ai trouvé aucune explication satisfaisante. Quelqu'un peut-il répondre et expliquer la solution à cette question? …
Je veux calculer la précision, le rappel et le score F1 pour mon modèle binaire KerasClassifier, mais je ne trouve aucune solution. Voici mon code actuel: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() …
Je connais la différence entre le clustering et la classification dans l'apprentissage automatique, mais je ne comprends pas la différence entre la classification de texte et la modélisation de sujet pour les documents. Puis-je utiliser la modélisation de sujet sur des documents pour identifier un sujet? Puis-je utiliser des méthodes …
J'ai 3 classes avec cette distribution: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 Et j'utilise xgboostpour la classification. Je sais qu'il y a un paramètre appelé scale_pos_weight. Mais comment est-il géré pour le cas «multiclasse», et comment puis-je le configurer correctement?
Le problème que j'aborde est de classer les textes courts en plusieurs classes. Mon approche actuelle consiste à utiliser les fréquences des termes pondérés tf-idf et à apprendre un classificateur linéaire simple (régression logistique). Cela fonctionne assez bien (environ 90% de macro F-1 sur le test, près de 100% sur …
J'essaie de chercher un bon argument sur la raison pour laquelle on utiliserait la distance de Manhattan sur la distance euclidienne dans le Machine Learning. La chose la plus proche que j'ai trouvée pour un bon argument jusqu'à présent est sur cette conférence du MIT . À 36h15, vous pouvez …
J'ai un problème de classification binaire: Environ 1000 échantillons dans le kit de formation 10 attributs, y compris binaire, numérique et catégorique Quel algorithme est le meilleur choix pour ce type de problème? Par défaut, je vais commencer par SVM (préliminaire ayant des valeurs d'attributs nominales converties en fonctionnalités binaires), …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.