Processus de Dirichlet pour l'apprentissage supervisé?


8

Il semble que lorsque je jette un coup d'œil ici aux algorithmes d'apprentissage à la mode, des choses comme les réseaux de neurones, les arbres boostés, les machines à vecteurs de support, les forêts aléatoires et les amis sont promus pour les problèmes d'apprentissage supervisé. Les processus de Dirichlet et leurs semblables semblent être mentionnés principalement dans les problèmes d'apprentissage non supervisés, tels que le regroupement de documents ou d'images. Je les vois s'habituer à des problèmes de régression, ou en tant que priors à usage général quand on veut faire des statistiques bayésiennes de manière non paramétrique ou semi-paramétrique (par exemple comme un a priori flexible sur la distribution des effets aléatoires dans certains modèles) mais mon expérience limitée suggère que cela ne vient pas autant de la foule de l'apprentissage automatique que des statisticiens plus traditionnels. J'ai fait une petite recherche sur ce sujet et je '

Ainsi, les processus de Dirichlet et leurs cousins ​​sont-ils les plus efficaces en tant que priors pour les modèles de clustering flexibles? Ne sont-ils pas compétitifs avec le boosting, les SVM et les réseaux de neurones pour les problèmes d'apprentissage supervisé? Sont-ils utiles uniquement dans certaines situations pour ces problèmes? Ou mon impression générale est-elle incorrecte?


Que signifie une régression? dans la distribution de base du DP? ou dans le paramètre de mélange? Je pense que vous auriez du mal à monter un tel modèle.
probabilislogic

Ou voulez-vous dire une sorte de "régression" générique où vous ajustez un DP multivarié aux distributions marginales et conjointes.
probabilislogic

@probabilityislogic fit distribution from DP to joint and go go the conditionals est le genre de chose que j'avais en tête, avec des variations sur ce thème. La modélisation des poids dans la construction de rupture de bâton est similaire.
gars

Réponses:


1

Cette question n'attire pas trop l'attention, alors je vais répondre pour mettre à jour ce que j'ai trouvé et (espérons-le) stimuler la discussion. J'ai rencontré un article que j'ai hâte de lire et qui utilise des DPM pour effectuer la classification (Shahbaba et Neal, 2007) qu'ils ont testé sur des données sur les protéines. Essentiellement, il semble qu'ils aient fait quelque chose de similaire à ce que j'ai suggéré dans les commentaires ci-dessus. Il se compare favorablement aux réseaux de neurones et aux machines à vecteurs de support. Cela me soulage un peu, car j'ai consacré beaucoup de temps à ces modèles dans le souci des problèmes d'apprentissage automatique supervisé, il semble donc que je n'ai peut-être pas perdu mon temps.


1

Jetez un œil au DPpackage du processus de R. Dirichlet qui peut être utilisé au moins comme a priori pour un effet aléatoire et pour construire une distribution d'erreur non paramétrique pour la régression.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.