La modélisation des classes latentes serait une approche d'apprentissage supervisé pour trouver des partitions ou des groupes sous-jacents ou «cachés» de drogues et d'usagers de drogues. LC est une méthode très flexible avec deux grandes approches: réplications basées sur des mesures répétées pour un seul sujet vs réplications basées sur la classification croisée d'un ensemble de variables catégorielles. Vos données correspondraient au deuxième type.
La flexibilité des CL est fonction de sa capacité à absorber des «mélanges» de variables avec des échelles différentes (par exemple, catégoriques ou continues). Étant donné que l'approche trouve des partitions, des segments ou des clusters cachés dans les données, elle peut également être considérée comme une technique de réduction de dimension.
Tous les modèles LC ont 2 étapes: à l'étape 1, une variable dépendante ou cible est identifiée et un modèle de régression est construit. À l'étape 2, le résidu (un seul vecteur "latent") du modèle de l'étape 1 est analysé et des partitions sont créées capturant la variabilité (ou l'hétérogénéité) - les "classes latentes" - dans ce vecteur.
Freeware est disponible pour le téléchargement qui fonctionnerait probablement assez bien pour vous. L'un d'eux est un module R appelé polCA disponible ici:
http://www.jstatsoft.org/article/view/v042i10
Si vous avez environ 1000 $ à dépenser pour un produit commercial, Latent Gold est disponible sur www.statisticalinnovations.com Après avoir utilisé Latent Gold pendant des années, je suis un grand fan de ce produit pour sa puissance analytique et sa gamme de solutions. Par exemple, polCA n'est utile que pour les modèles LC avec des informations catégoriques alors que LG fonctionne dans tous les domaines ... de plus, leurs développeurs ajoutent toujours de nouveaux modules. L'ajout le plus récent construit des modèles LC à l'aide de chaînes de Markov cachées. Mais gardez à l'esprit que LG n'est pas une plate-forme de données «de bout en bout», c'est-à-dire qu'elle n'est pas bonne pour la manipulation ou le levage de données lourdes.
Sinon, il existe des tonnes d'autres approches pour analyser les informations catégoriques qui sont largement prises en charge par les logiciels statistiques tels que R, SPSS, SAS, Python, etc. Celles-ci incluent l'analyse des tableaux de contingence, les modèles log-linéaires, les modèles à mélange fini, la régression du tenseur bayésien, etc. La littérature dans ce domaine est vaste et a commencé avec Bishop, et al., Discrete Multivariate Analysis en 1975, s'étend à travers les modèles RC de Leo Goodman basés sur son travail effectué depuis les années 80, l' analyse de données catégoriques d'Agresti , les livres de Stephen Fienberg et inclut Thomas Wickens 'excellent livre Multiway Contingency Tables Analysis for the Social Sciences publié en 1989. Bayesian Tensor Regression est le titre d'un article de David Dunson chez Duke et est en quelque sorte le "dernier cri" en étant une méthode très récente de modélisation de tables de contingence massivement multi-voies.