Des ressources pour apprendre des techniques à cibles multiples?


11

Je recherche des ressources (livres, notes de cours, etc.) sur les techniques pouvant gérer des données à cibles multiples (Ex: trois variables dépendantes: 2 discrètes et 1 continue).

Quelqu'un at-il des ressources / connaissances à ce sujet? Je sais qu'il est possible d'utiliser des réseaux de neurones pour cela.

Réponses:


6

La forêt aléatoire le gère plutôt bien, voir Une forêt aléatoire avec plusieurs sorties serait-elle possible / pratique? ou la documentation de scikit learn . Je suppose que GBM ou n'importe quelle méthode basée sur un arbre peut être adaptée de la même manière.

Plus généralement, lorsque vous exécutez un algorithme d'apprentissage minimisant un score, vous travaillez généralement sur la minimisation de qui est unidimensionnel. Mais vous pouvez spécifier n'importe quelle fonction cible. Si vous travailliez sur la prédiction de position (bidimensionnelle), serait une bonne métrique.i(piyi)2i(y^iyi)2+(x^ixi)2

Si vous avez une sortie de type mixte (classification et régression), la spécification de la fonction cible vous obligera probablement à spécifier une fonction cible qui donne plus de poids à certaines cibles que d'autres: quelle mise à l'échelle appliquez-vous aux réponses continues? Quelle perte appliquez-vous aux classifications manquées?

Quant à la lecture académique,

Wikipédia de SVM Structured Learning

Exploiter simultanément les structures de sortie et de tâche pour la régression à sorties multiples

La méthode de sélection des points de repère pour la prédiction de sorties multiples (traite des variables dépendantes de dimensions élevées)


1
Étant donné que la régression multicible vise également à modéliser les relations entre les Y, ne souhaiteriez-vous pas une fonction de perte qui mesure l'ajustement de cette relation?
Max Ghenis

3

Cet article décrit bien les méthodes actuelles, les boîtes à outils disponibles, ainsi que les jeux de données sur lesquels tester.

Il se trouve que je travaille sur un problème commercial nécessitant une régression multi-cibles, et j'ai trouvé que la boîte à outils Clus a un bon mélange de haute performance et de robustesse

  • La documentation est excellente
  • La boîte à outils propose plusieurs méthodes de classification et de régression à cibles multiples.
  • Il prend également en charge l'induction et le clustering basés sur des règles.
  • Les modèles d'ensemble (Bagging, RandomForest) que j'ai utilisés peuvent être lus et interprétés facilement.

Certaines des nouvelles méthodes (post 2012) ont été implémentées comme une extension de la boîte à outils Mulan, voici le lien Github . Bien que ces méthodes telles que les combinaisons de cibles linéaires aléatoires rapportent de meilleures performances que les modèles d'ensemble, j'ai trouvé que la boîte à outils n'était pas aussi mature que la boîte à outils Clus et ne les utilisait donc pas.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.