J'ai du mal à trouver une méthode pour réduire le nombre de catégories dans les données nominales ou ordinales.
Par exemple, disons que je veux construire un modèle de régression sur un ensemble de données qui a un certain nombre de facteurs nominaux et ordinaux. Bien que je n'ai aucun problème avec cette étape, je rencontre souvent des situations où une caractéristique nominale est sans observations dans l'ensemble d'apprentissage, mais existe par la suite dans l'ensemble de données de validation. Cela conduit naturellement à une erreur lorsque le modèle est présenté avec (jusqu'à présent) des cas invisibles. Une autre situation où je voudrais combiner des catégories est simplement quand il y a trop de catégories avec peu d'observations.
Mes questions sont donc:
- Bien que je sache qu'il serait préférable de combiner de nombreuses catégories nominales (et ordinales) en fonction des informations contextuelles antérieures qu'elles représentent, existe-t-il des méthodes systématiques (
R
packages de préférence) disponibles? - Quelles lignes directrices et suggestions feriez-vous concernant les seuils de coupure, etc.?
- Quelles sont les solutions les plus populaires dans la littérature?
- Existe-t-il d'autres stratégies que de combiner de petites catégories nominales à une nouvelle catégorie «AUTRES»?
N'hésitez pas à sonner si vous avez d'autres suggestions également.