Questions marquées «classification»

La classification statistique est le problème de l'identification de la sous-population à laquelle appartiennent de nouvelles observations, où l'identité de la sous-population est inconnue, sur la base d'un ensemble d'apprentissage de données contenant des observations dont la sous-population est connue. Ces classifications montreront donc un comportement variable qui peut être étudié par des statistiques.



3
Appliquer des mots incorporés à l'ensemble du document pour obtenir un vecteur de caractéristiques
Comment utiliser un mot incorporé pour mapper un document sur un vecteur de caractéristiques approprié pour une utilisation avec apprentissage supervisé? Un mot incorporant mappe chaque mot www à un vecteur v∈Rdv∈Rdv \in \mathbb{R}^d , où ddd est un nombre non trop grand (par exemple 500). Les mots les plus …

6
Améliorer la classification avec de nombreuses variables catégorielles
Je travaille sur un ensemble de données comprenant plus de 200 000 échantillons et environ 50 caractéristiques par échantillon: 10 variables continues et les 40 autres valeurs sont des variables catégorielles (pays, langues, domaines scientifiques, etc.). Pour ces variables catégorielles, vous avez par exemple 150 pays différents, 50 langues, 50 …

3
SVM, Overfitting, malédiction de la dimensionnalité
Mon jeu de données est petit (120 échantillons), mais le nombre d’entités est important varie de (1000 à 200 000). Bien que je sois en train de sélectionner des fonctionnalités pour choisir un sous-ensemble de fonctionnalités, cela peut tout de même être excessif. Ma première question est la suivante: comment …


3
PCA et train / test split
J'ai un jeu de données pour lequel j'ai plusieurs jeux d'étiquettes binaires. Pour chaque ensemble d'étiquettes, je forme un classificateur, en l'évaluant par validation croisée. Je souhaite réduire la dimensionnalité à l'aide de l'analyse en composantes principales (ACP). Ma question est: Est-il possible d'effectuer l'APC une fois pour l'ensemble de …



3
Pourquoi le t-SNE n'est-il pas utilisé comme technique de réduction de la dimensionnalité pour la classification ou le regroupement?
Lors d'une récente mission, il nous a été dit d'utiliser PCA sur les chiffres du MNIST pour réduire les dimensions de 64 (8 x 8 images) à 2. Nous avons ensuite dû regrouper les chiffres à l'aide d'un modèle de mélange gaussien. La PCA n'utilisant que 2 composantes principales ne …

3
Comment interpréter la diminution moyenne de l'exactitude et la diminution moyenne de GINI dans les modèles de forêt aléatoire
J'ai du mal à comprendre comment interpréter la sortie d'importance variable du paquet Random Forest. La diminution moyenne de la précision est généralement décrite comme "la diminution de la précision du modèle due à la permutation des valeurs dans chaque fonction". S'agit-il d'une déclaration concernant la fonctionnalité dans son ensemble …

3

3
Qu'entend-on par «apprenant faible»?
Quelqu'un peut-il me dire ce que l'on entend par l'expression «apprenant faible»? Est-ce supposé être une hypothèse faible? Je suis confus quant à la relation entre un apprenant faible et un classificateur faible. Les deux sont les mêmes ou y a-t-il une différence? Dans l'algorithme AdaBoost, T=10. Que veut-on dire …


6
Classification statistique du texte
Je suis un programmeur sans connaissances statistiques et je suis actuellement en train d’examiner différentes méthodes de classification pour un grand nombre de documents que je souhaite classer en catégories prédéfinies. J'ai lu sur kNN, SVM et NN. Cependant, j'ai du mal à démarrer. Quelles ressources recommandez-vous? Je connais assez …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.