J'ai quelques réflexions à partager sur la réduction des dimensions des problèmes d'apprentissage non supervisés. En répondant, j'ai supposé que votre intérêt portait sur une interprétation humaine des clusters "high-touch", par opposition à une approche d'apprentissage automatique, clé en main, boîte noire et "low-touch" dans laquelle l'interprétation est délibérément minimisée. . S'il s'agissait de ce dernier, pourquoi voudriez-vous même poser la question? Notez également que j'ai eu une tonne d'expérience dans la gestion de solutions de cluster dans un large éventail d'environnements commerciaux au fil des ans, y compris le marketing stratégique B2C, les arènes technologiques B2B et la politique de l'éducation (regroupement des étudiants et des écoles).
Mais d'abord, j'ai une question concernant votre commentaire concernant le "regroupement de différents ensembles de données". Je ne savais pas ce que vous vouliez dire par là ou comment cela pourrait avoir un impact sur l'approche et j'espérais que vous pourriez élaborer.
Je voudrais contester votre hypothèse n ° 1 ci-dessus selon laquelle les solutions basées sur les PCA sont "difficiles à interpréter". Les raisons de l'exécution même d'une PCA comme étape préliminaire du clustering sont principalement liées à l' hygiène de la solution résultante dans la mesure où de nombreux algorithmes de clustering sont sensibles à la redondance des fonctionnalités. PCA réduit cette redondance en une poignée de composants gérables, minimisant ainsi les défis et les difficultés que vous notez concernant la sélection des fonctionnalités. S'il est vrai que les composants issus d'une PCA brouillent la granularité et la spécificité des fonctionnalités individuelles, c'est un problème si vous vous fiez uniquementsur ces composants dans l'analyse des résultats. En d'autres termes, vous n'êtes en aucune façon obligé d'utiliser uniquement les composants pour l'interprétation de cluster. Non seulement cela, vous n'avez même pas nécessairement besoin de vous soucier de ce que signifient les dimensions des facteurs. Ils ne sont qu'un moyen intermédiaire et (finalement) jetable pour une fin facilitant une solution applicable. Mais en faisant ce point, je diffère de nombreux praticiens car les équipes peuvent, vont et vont passer des semaines à construire soigneusement une solution factorielle "significative". Pour moi, c'est une perte inefficace de temps et d'argent pour les clients.
À ce stade, il y aura une cargaison de considérations techniques à traiter. D'une part, si votre algorithme PCA n'est pas invariant à l'échelle (par exemple, OLS vs ML), alors toute solution PCA résultante sera déformée, chargeant plus lourdement sur les caractéristiques à forte variance. Dans ces cas, vos fonctions doivent être prétraitées ou transformées d'une manière ou d'une autre pour aplanir cet écart. Il existe un grand nombre de possibilités ici, notamment la standardisation moyenne, la standardisation de la plage ou de l'IQR, la mise à l'échelle ipsative, etc. Tirez parti de cette transformation pour fournir la solution la meilleure et la plus interprétable.
Une fois qu'une solution de cluster est générée, l'interprétation est mieux motivée (d'après mon expérience) en ignorant les composants et en repliant les fonctionnalités d'origine ainsi que toute information descriptive supplémentaire non directement utilisée dans la solution. À ce stade, quelques heuristiques sont les meilleurs guides pour un aperçu qualitatif. Cela peut être aussi simple que de générer une feuille de calcul qui présente vos clusters en fonction des moyennes ou des médianes pour chaque entité (les lignes de la feuille), pour chaque cluster (les colonnes) ainsi qu'une colonne supplémentaire représentant la moyenne générale de votre échantillon total . Ensuite, en indexant les moyennes de cluster pour chaque entité par rapport à la moyenne générale (et en multipliant par 100), une heuristique est créée qui est comme un score de QI dans la mesure où environ "100" est un QI "normal" ou un comportement moyen, les indices de 120+ suggèrent de fortes probabilités qu'une caractéristique soit "vraie" sur le comportement d'un cluster et les indices de 80 ou moins indiquent des caractéristiques qui "ne sont pas vraies" d'un cluster. Ces indices de 120+ et 80 ou moins sont comme des tests t proxy pour la signification d'une caractéristique donnée dans la conduite de la solution. Bien sûr, vous pouvez exécuter des tests de groupe significatifs et, selon la taille des échantillons, vous obtiendrez des réponses qui varient autour de ces règles générales rapides et sales.
Ok ... après tout cela, supposons que vous êtes toujours opposé à l'utilisation de PCA comme entrée directe dans un algorithme de clustering, le problème reste de savoir comment sélectionner un ensemble réduit de fonctionnalités. PCA peut toujours être utile ici car les PCA sont comme exécuter une régression sans variable dépendante. Les fonctions de chargement par le haut sur chaque composant peuvent devenir les entrées de l'algorithme de cluster.
En ce qui concerne le grand nombre de fonctionnalités et la taille d'échantillon relativement petite de vos données, la règle de base typique dans de nombreuses analyses multivariées "d'informations complètes" est un minimum d'environ 10 observations par fonctionnalité. Il existe certaines méthodes spécialisées qui peuvent être utilisées pour contourner ce défi. Par exemple, les moindres carrés partiels (PLS) ont été développés pour la première fois par Herman Wold dans son livre de 1990 The empirical Empiricism pour une utilisation dans des domaines tels que la chimiométrie qui font face à ce problème précis. Il est de nature analytique, mais il est beaucoup moins contraignant d'exiger un grand n pour générer les dimensions. D'autres solutions incluent les approches d'apprentissage automatique de type forêt, "diviser pour mieux régner", utilisées avec des quantités massives d'informations. Ces méthodes sont passées en revue dans ce pdfhttp://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
Mais supposons que vous ayez décidé que vous ne vouliez toujours rien à voir avec l'analyse factorielle et que vous soyez déterminé à exécuter une sorte de processus de sélection supervisé et "séquentiel". À mon avis, le problème le plus important est moins de trouver une mesure de performance post-hoc (Dunn Index) et plus d'identifier un proxy approprié - une variable dépendante - pour rendre même cette approche possible. Cette décision est entièrement fonction de votre jugement et du statut de PME par rapport à vos données. Il n'y a pas de «meilleures pratiques», des réponses beaucoup moins faciles à cela et compte tenu de la façon dont vous avez décrit vos données, pas un petit défi.
Une fois cette décision prise, il existe littéralement des centaines de solutions de sélection de variables possibles. La sélection variable est un sujet sur lequel chaque statisticien et son frère ont publié un article. Votre approche préférée semble être la "sélection séquentielle vers l'avant" est très bien.
Il convient de noter qu'il existe des modèles d'apprentissage supervisé qui intègrent une solution de cluster dans le cadre de l'algorithme. Des exemples de cela incluent les approches larges et très flexibles connues sous le nom de modèles de classe latente. L'essence des modèles LC est qu'ils sont en deux étapes: dans la première étape, un DV est défini et un modèle de régression est construit. Dans la deuxième étape, toute hétérogénéité de la production résiduelle du modèle - un seul vecteur latent - est divisée en "classes" latentes. Il y a un aperçu de la modélisation LC dans cette discussion de CV ici ... Doute du modèle logit multinomial de classe latente
J'espère que cela t'aides.