Quelles techniques sont disponibles pour regrouper (ou regrouper) plusieurs catégories en un petit nombre, dans le but de les utiliser comme entrée (prédicteur) dans un modèle statistique? Considérons une variable comme étudiant majeur (discipline choisie par un étudiant de premier cycle). Il est non ordonné et catégorique, mais il peut …
Je travaille sur un ensemble de données comprenant plus de 200 000 échantillons et environ 50 caractéristiques par échantillon: 10 variables continues et les 40 autres valeurs sont des variables catégorielles (pays, langues, domaines scientifiques, etc.). Pour ces variables catégorielles, vous avez par exemple 150 pays différents, 50 langues, 50 …
Il semble y avoir une discussion croissante sur les camemberts. Les principaux arguments contre cela semblent être: La zone est perçue avec moins de puissance que la longueur. Les graphiques circulaires ont un rapport point-à-pixel de données très faible Cependant, je pense qu'ils peuvent être d'une certaine manière utiles lors …
Je construis un modèle et je pense que la situation géographique est susceptible d'être très bonne pour prédire ma variable cible. J'ai le code postal de chacun de mes utilisateurs. Je ne suis pas tout à fait sûr de la meilleure façon d'inclure le code postal comme fonctionnalité de prédiction …
Le package randomForest de R ne peut pas gérer le facteur avec plus de 32 niveaux. Lorsqu'il reçoit plus de 32 niveaux, il émet un message d'erreur: Ne peut pas gérer les prédicteurs catégoriels avec plus de 32 catégories. Mais les données dont je dispose ont plusieurs facteurs. Certains d'entre …
J'expérimente l'algorithme de la machine de renforcement de gradient via le caretpackage en R. À l'aide d'un petit ensemble de données d'admission à l'université, j'ai exécuté le code suivant: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …
Dans un modèle à effets mixtes, la recommandation consiste à utiliser un effet fixe pour estimer un paramètre si tous les niveaux possibles sont inclus (par exemple, hommes et femmes). Il est en outre recommandé d'utiliser un effet aléatoire pour tenir compte d'une variable si les niveaux inclus ne sont …
De nombreux algorithmes d'apprentissage automatique, par exemple les réseaux de neurones, s'attendent à traiter les nombres. Ainsi, lorsque vous avez des données catégorielles, vous devez les convertir. Par catégorique, je veux dire, par exemple: Marques automobiles: Audi, BMW, Chevrolet ... ID utilisateur: 1, 25, 26, 28 ... Même si les …
J'ai du mal à trouver une méthode pour réduire le nombre de catégories dans les données nominales ou ordinales. Par exemple, disons que je veux construire un modèle de régression sur un ensemble de données qui a un certain nombre de facteurs nominaux et ordinaux. Bien que je n'ai aucun …
Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les différents tests diffèrent …
Je veux former un classificateur, par exemple SVM, ou une forêt aléatoire, ou tout autre classificateur. L'une des fonctionnalités de l'ensemble de données est une variable catégorielle avec 1000 niveaux. Quelle est la meilleure façon de réduire le nombre de niveaux dans cette variable. Dans R, il y a une …
Je suis conscient du fait que les variables catégorielles avec k niveaux doivent être codées avec k-1 variables dans le codage factice (de même pour les variables catégorielles à valeurs multiples). Je me demandais combien de problème un codage à chaud (c'est-à-dire en utilisant k variables à la place) sur …
Vous vous demandez si quelqu'un a traversé un package / une fonction dans R qui combinera les niveaux d'un facteur dont la proportion de tous les niveaux d'un facteur est inférieure à un certain seuil? Plus précisément, l'une des premières étapes de la préparation des données que je mène est …
Les modèles pénalisés peuvent être utilisés pour estimer les modèles où le nombre de paramètres est égal ou même supérieur à la taille de l'échantillon. Cette situation peut se produire dans les modèles log-linéaires de grandes tables clairsemées de données catégorielles ou de dénombrement. Dans ces paramètres, il est souvent …
J'ai cherché dans les questions concernant l'encodage catégorique des fonctionnalités, mais je n'ai trouvé aucune discussion sur mon problème. Toutes mes excuses si je l'ai raté. Disons que nous avons un ensemble de données avec des variables binaires et nominales d'importance à peu près égale. La plupart des classificateurs ne …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.