Questions marquées «classification»

La classification statistique est le problème de l'identification de la sous-population à laquelle appartiennent de nouvelles observations, où l'identité de la sous-population est inconnue, sur la base d'un ensemble d'apprentissage de données contenant des observations dont la sous-population est connue. Ces classifications montreront donc un comportement variable qui peut être étudié par des statistiques.

2
Est précision = 1- taux d'erreur de test
Toutes mes excuses si c'est une question très évidente, mais j'ai lu divers articles et je n'arrive pas à trouver une bonne confirmation. Dans le cas de la classification, la précision d' un classificateur est-elle un taux d'erreur de test de 1 ? J'obtiens que la précision est , mais …



4
Comment interpréter une courbe ROC?
J'ai appliqué une régression logistique à mes données sur SAS et voici la courbe ROC et le tableau de classification. Je suis à l'aise avec les chiffres du tableau de classification, mais je ne sais pas exactement ce que la courbe roc et la zone en dessous montrent. Toute explication …

3
Quels devraient être les paramètres optimaux pour le classificateur Random Forest?
Actuellement j'utilise RF toolbox sur MATLAB pour un problème de classification binaire Ensemble de données: 50000 échantillons et plus de 250 fonctionnalités Alors, quel devrait être le nombre d'arbres et la fonction sélectionnée au hasard sur chaque division pour faire pousser les arbres? tout autre paramètre peut-il affecter considérablement les …



4
Faut-il se préoccuper de la multi-colinéarité lors de l'utilisation de modèles non linéaires?
Supposons que nous ayons un problème de classification binaire avec des fonctionnalités principalement catégorielles. Nous utilisons un modèle non linéaire (par exemple XGBoost ou Random Forests) pour l'apprendre. Faut-il encore se préoccuper de la multi-colinéarité? Pourquoi? Si la réponse à ce qui précède est vraie, comment la combattre si l'on …

3
Comment les modèles d'apprentissage automatique (GBM, NN, etc.) peuvent-ils être utilisés pour l'analyse de survie?
Je sais que les modèles statistiques traditionnels comme la régression des risques proportionnels de Cox et certains modèles de Kaplan-Meier peuvent être utilisés pour prédire jours jusqu'à la prochaine occurrence d'une panne par exemple d'événements , etc. -à- dire l' analyse de survie Des questions Comment la version de régression …


2
L'utilisation du package caret est-il possible d'obtenir des matrices de confusion pour des valeurs de seuil spécifiques?
J'ai obtenu un modèle de régression logistique (via train) pour une réponse binaire, et j'ai obtenu la matrice de confusion logistique via confusionMatrixin caret. Cela me donne la matrice de confusion du modèle logistique, même si je ne sais pas quel seuil est utilisé pour l'obtenir. Comment obtenir la matrice …


3
PCA sur les données textuelles de grande dimension avant la classification aléatoire des forêts?
Est-il judicieux de faire de l'ACP avant d'effectuer une classification aléatoire des forêts? J'ai affaire à des données de texte de grande dimension, et je veux faire une réduction de fonctionnalités pour éviter la malédiction de la dimensionnalité, mais Random Forests ne fait-il pas déjà une sorte de réduction de …


1
Package GBM vs Caret utilisant GBM
J'ai ajusté le modèle à l'aide caret, mais j'ai ensuite réexécuté le modèle à l'aide du gbmpackage. Je crois comprendre que le caretpackage utilise gbmet que la sortie doit être la même. Cependant, un simple test rapide utilisant data(iris)montre une différence dans le modèle d'environ 5% en utilisant RMSE et …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.