J'ai des caractéristiques clairsemées qui sont prédictives, j'ai aussi des caractéristiques denses qui sont également prédictives. J'ai besoin de combiner ces fonctionnalités pour améliorer les performances globales du classificateur. Maintenant, le problème est que lorsque j'essaie de les combiner, les entités denses ont tendance à dominer davantage les entités clairsemées, …
J'utilise l'exemple OpenCV letter_recog.cpp pour expérimenter sur des arbres aléatoires et d'autres classificateurs. Cet exemple a des implémentations de six classificateurs - arbres aléatoires, boosting, MLP, kNN, Bayes naïfs et SVM. Un ensemble de données de reconnaissance de lettres UCI avec 20000 instances et 16 fonctionnalités est utilisé, que j'ai …
Je travaille sur l'amélioration d'un classifieur supervisé existant, pour classer les séquences {protéine} comme appartenant à une classe spécifique (précurseurs des hormones neuropeptidiques), ou non. Il y a environ 1 150 «positifs» connus, sur un fond d'environ 13 millions de séquences de protéines («fond inconnu / mal annoté»), ou environ …
J'ai fait un problème de classification et j'ai lu le code et les tutoriels de beaucoup de gens. Une chose que j'ai remarquée, c'est que beaucoup de gens prennent np.logou logde variable continue comme loan_amountou applicant_incomeetc. Je veux juste comprendre la raison derrière cela. Cela aide-t-il à améliorer la précision …
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
J'ai deux questions liées aux arbres de décision: Si nous avons un attribut continu, comment choisissons-nous la valeur de fractionnement? Exemple: Âge = (20,29,50,40 ....) Imaginons que nous ayons un attribut continu qui ont des valeurs dans . Comment puis-je écrire un algorithme qui trouve le point de partage , …
J'utilise actuellement XGBoost pour la prédiction des risques, il semble faire du bon travail dans le département de classification binaire mais les sorties de probabilité sont très éloignées, c'est-à-dire que changer la valeur d'une caractéristique dans une observation de très petite quantité peut rendre la probabilité saut de sortie de …
Je travaille sur un problème de classification. J'ai un ensemble de données contenant un nombre égal de variables catégorielles et de variables continues. Comment saurai-je quelle technique utiliser? entre un arbre de décision et une régression logistique? Est-il juste de supposer que la régression logistique sera plus appropriée pour la …
J'ai un ensemble de données d'utilisateurs qui achètent des produits sur un site Web. Les attributs que j'ai sont l'ID utilisateur, la région (état) de l'utilisateur, l'ID catégories du produit, l'ID mots clés du produit, l'ID mots clés du site Web et le montant des ventes dépensées pour le produit. …
J'ai un ensemble de données avec les spécifications suivantes: Ensemble de données d'apprentissage avec 193 176 échantillons avec 2 821 positifs Ensemble de données de test avec 82 887 échantillons avec 673 positifs Il y a 10 fonctionnalités. Je souhaite effectuer une classification binaire (0 ou 1). Le problème auquel …
Si j'ai un ensemble de données d'entraînement et j'entraîne un classificateur Naive Bayes dessus et j'ai une valeur d'attribut qui a une probabilité nulle. Comment gérer cela si je souhaite par la suite prédire la classification des nouvelles données? Le problème est que s'il y a un zéro dans le …
Quelqu'un peut-il me dire quel est le but de la génération de fonctionnalités? et pourquoi l'enrichissement de l'espace des fonctionnalités est nécessaire avant de classer une image? Est-ce une étape nécessaire? Existe-t-il une méthode pour enrichir l'espace des fonctionnalités?
Je voudrais savoir quelle est la meilleure façon de classer un ensemble de données composé de types mixtes d'attributs, par exemple textuels et numériques. Je sais que je peux convertir du textuel en booléen, mais le vocabulaire est divers et les données deviennent trop rares. J'ai également essayé de classer …
J'ai besoin de savoir pourquoi nous devons faire face au déséquilibre des données. Je sais comment y faire face et différentes méthodes pour résoudre le problème qui est par échantillonnage à la hausse ou à la baisse ou en utilisant Smote. Par exemple, si j'ai une maladie rare, 1% sur …
En ce moment, je joue avec des machines Boltzmann restreintes et comme j'y suis, j'aimerais essayer de classer les chiffres manuscrits avec. Le modèle que j'ai créé est maintenant un modèle génératif assez sophistiqué mais je ne sais pas comment aller plus loin. Dans cet article, l'auteur dit qu'après avoir …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.