Apprentissage en continu de pointe

J'ai travaillé avec de grands ensembles de données récemment et j'ai trouvé beaucoup d'articles sur les méthodes de streaming. Pour n'en nommer que quelques-uns:

Follow-the-Regularized-Leader and Mirror Descent: The Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
Apprentissage en continu: SVM en un seul passage ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
Pegasos: Primal Estimated sub-GrAdient SOlver for SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
ou ici: SVM peut-il diffuser l'apprentissage en continu un exemple à la fois?
Streaming Random Forests ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )

Cependant, je n'ai pas pu trouver de documentation sur la façon dont ils se comparent les uns aux autres. Chaque article que j'ai lu semble mener des expériences sur différents ensembles de données.

Je connais sofia-ml, vowpal wabbit, mais ils semblent implémenter très peu de méthodes, par rapport à l'énorme quantité de méthodes existantes!

Les algorithmes les moins courants ne sont-ils pas suffisamment performants? Y a-t-il un document essayant de revoir autant de méthodes que possible?

— RUser4512
source

S'il n'y en a pas, vous devez l'écrire vous-même :)

— Chris C

vous comprenez que les universitaires doivent écrire des articles / proposer de nouveaux algorithmes, et ils rechercheront les ensembles de données sur lesquels leur algorithme fonctionne le mieux. Je vous recommanderais simplement de vous assurer de comprendre le fonctionnement d'une bibliothèque telle que vowpal-wabbit (c'est-à-dire tous les paramètres, etc.).

— seanv507

C'est en fait le contraire! J'ai compris que les gens choisissaient le meilleur ensemble de données et sont généralement relativement silencieux sur la façon dont ils ont validé les algorithmes (les leurs et les méthodes concurrentes). Je recherche plutôt une version en streaming de jmlr.org/papers/volume15/delgado14a/delgado14a.pdf

— RUser4512

Vraiment comme le papier JMLR que vous avez lié. Je ne connais donc pas moi-même une comparaison similaire pour les algorithmes de streaming. Probablement parce que le streaming est plus niche et aussi parce qu'il est déjà difficile de comparer les classificateurs pour les jeux de données statiques, il est encore plus compliqué de faire une comparaison équitable pour le streaming de données.

— stats0007

Bien que ceux-ci ne répondent pas spécifiquement à votre question, deux ressources connexes sont: Evaluating Algorithms that Learn from Data Streams de Gama et al., Qui traite des techniques d'évaluation, et MOA (Massive Online Analysis) , un cadre open source pour l'exploration de flux de données qui intègre la capacité d'évaluer les performances.

— user77876

Pour autant que je sache, une étude rigoureuse de plusieurs algorithmes similaires au document Delgado que vous avez lié n'est pas disponible, mais des efforts ont été déployés pour recueillir des résultats pour les familles d'algorithmes.

Voici quelques sources que je trouve utiles (avertissement: je publie dans la région, il est donc probable que je suis biaisé dans ma sélection):

Une enquête sur l'apprentissage d'ensemble pour la classification des flux de données (enquête)
Apprentissage en ligne et optimisation convexe en ligne (rapport technique)
Apprentissage automatique en ligne dans les flux de Big Data (enquête)
Apprentissage automatique pour les flux de données (livre)
Algorithmes d'apprentissage des arbres et des ensembles de régression sur l'évolution des flux de données (thèse de doctorat)
Apprendre avec Concept Drift: an Overview (Survey)
Apprentissage en ligne optimal et adaptatif (thèse de doctorat)
Apprentissage et exploration adaptatifs pour les flux de données et les modèles fréquents (thèse de doctorat)

Quelques packages de logiciels:

Je peux ajouter plus d'informations et de sources si nécessaire. Comme d'autres l'ont dit, le domaine pourrait utiliser une enquête complète.

— Bar
source