J'essaie de prédire le succès ou l'échec des étudiants en fonction de certaines fonctionnalités avec un modèle de régression logistique. Pour améliorer les performances du modèle, j'ai déjà pensé à diviser les élèves en différents groupes en fonction de différences évidentes et à construire des modèles distincts pour chaque groupe. Mais je pense qu'il pourrait être difficile d'identifier ces groupes par examen, alors j'ai pensé à diviser les étudiants en regroupant leurs caractéristiques. Est-ce une pratique courante dans la construction de tels modèles? Pourriez-vous suggérer que je le décompose en groupes évidents (par exemple, les étudiants du premier trimestre par rapport aux étudiants qui reviennent) et que j'effectue ensuite le clustering sur ces groupes, ou le cluster depuis le début?
Pour essayer de clarifier:Ce que je veux dire, c'est que j'envisage d'utiliser un algorithme de clustering pour diviser mon ensemble d'entraînement pour la régression logistique en groupes. Je ferais ensuite des régressions logistiques distinctes pour chacun de ces groupes. Ensuite, lorsque j'utilisais la régression logistique pour prédire le résultat pour un élève, je choisirais le modèle à utiliser en fonction du groupe auquel il s'intègre le mieux.
Je pourrais peut-être faire la même chose en incluant un identifiant de groupe, par exemple, un 1 si l'élève revient et un 0 sinon.
Maintenant, vous me demandez s'il pourrait être avantageux de regrouper l'ensemble de données de formation et d'utiliser leur étiquette de cluster comme caractéristique de la régression logistique, plutôt que de créer des modèles de régression logistique distincts pour chaque population.
S'il est utile d'inclure un identifiant de groupe pour ceux qui reviennent des étudiants par rapport aux nouveaux étudiants, serait-il également utile d'élargir la liste des groupes? Le regroupement semble être un moyen naturel de procéder.
J'espère que c'est clair ...