J'ai 40000 lignes de données textuelles du domaine des soins de santé. Les données ont une colonne pour le texte (2-5 phrases) et une colonne pour sa catégorie. Je veux classer cela en 300 catégories. Certaines catégories sont indépendantes tandis que d'autres sont quelque peu liées. La distribution des données entre les catégories n'est pas uniforme non plus, c'est-à-dire que certaines des catégories (environ 40 d'entre elles) ont moins de données sur 2-3 lignes.
J'attache la probabilité de journal de chaque classe / catégories. (OU répartition des classes) ici.