Pour la tâche de modélisation de l'attrition, je considérais:
- Calculer k clusters pour les données
- Construisez k modèles pour chaque cluster individuellement.
La raison en est, qu'il n'y a rien à prouver, que la population des abonnés est homogène, il est donc raisonnable de supposer que le processus de génération de données peut être différent pour différents "groupes"
Ma question est, est-ce une méthode appropriée? Cela viole-t-il quelque chose ou est-il considéré comme mauvais pour une raison quelconque? Si oui, pourquoi?
Sinon, pourriez-vous partager quelques bonnes pratiques sur cette question? Et 2e chose - est-il généralement préférable ou pire de faire du préclustering que l'arbre du modèle (comme défini dans Witten, Frank - arbre de classification / régression avec des modèles aux feuilles). idk s'il présente des avantages par rapport au clustering "normal".).