Quelles techniques sont disponibles pour regrouper (ou regrouper) plusieurs catégories en un petit nombre, dans le but de les utiliser comme entrée (prédicteur) dans un modèle statistique?
Considérons une variable comme étudiant majeur (discipline choisie par un étudiant de premier cycle). Il est non ordonné et catégorique, mais il peut potentiellement avoir des dizaines de niveaux distincts. Supposons que je souhaite utiliser major comme prédicteur dans un modèle de régression.
L'utilisation de ces niveaux tels quels pour la modélisation soulève de nombreux problèmes, car ils sont nombreux. On utiliserait beaucoup de précision statistique pour les utiliser, et les résultats sont difficiles à interpréter. Nous sommes rarement intéressés par des majors spécifiques - nous sommes beaucoup plus susceptibles de nous intéresser par de grandes catégories (sous-groupes) de majors. Mais il n'est pas toujours clair de savoir comment répartir les niveaux en de telles catégories de niveau supérieur, ni même le nombre de catégories de niveau supérieur à utiliser.
Pour des données typiques, je serais heureux d’utiliser une analyse factorielle, une factorisation matricielle ou une technique de modélisation discrète. Mais les majors sont des catégories qui s’excluent mutuellement, j’hésite donc à exploiter leur covariance pour quoi que ce soit.
De plus, je me fiche des catégories principales. Je tiens à produire des catégories de niveau supérieur cohérentes par rapport au résultat de ma régression . Dans le cas des résultats binaires, cela me suggère quelque chose comme une analyse discriminante linéaire (ADL) pour générer des catégories de niveau supérieur qui maximisent les performances discriminantes. Mais la LDA est une technique limitée et cela me fait penser à du dragage de données sales. De plus, toute solution continue sera difficile à interpréter.
Pendant ce temps, quelque chose basé sur les covariances, comme l'analyse des correspondances multiples (MCA), me semble suspect dans ce cas en raison de la dépendance inhérente à des variables nominales mutuellement exclusives - elles sont mieux adaptées à l'étude de variables catégorielles multiples plutôt qu'à de multiples catégories de la variable. même variable.
edit : pour être clair, il s’agit de réduire les catégories (et non de les sélectionner), et les catégories sont des prédicteurs ou des variables indépendantes. Avec le recul, ce problème semble être un moment opportun pour "tout régulariser et laisser Dieu les régler". Heureux de voir que cette question intéresse beaucoup de gens!