J'ai travaillé avec de grands ensembles de données récemment et j'ai trouvé beaucoup d'articles sur les méthodes de streaming. Pour n'en nommer que quelques-uns:
- Follow-the-Regularized-Leader and Mirror Descent: The Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Apprentissage en continu: SVM en un seul passage ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal Estimated sub-GrAdient SOlver for SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- ou ici: SVM peut-il diffuser l'apprentissage en continu un exemple à la fois?
- Streaming Random Forests ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Cependant, je n'ai pas pu trouver de documentation sur la façon dont ils se comparent les uns aux autres. Chaque article que j'ai lu semble mener des expériences sur différents ensembles de données.
Je connais sofia-ml, vowpal wabbit, mais ils semblent implémenter très peu de méthodes, par rapport à l'énorme quantité de méthodes existantes!
Les algorithmes les moins courants ne sont-ils pas suffisamment performants? Y a-t-il un document essayant de revoir autant de méthodes que possible?