J'essaie de configurer une infrastructure de Big Data en utilisant Hadoop, Hive, Elastic Search (entre autres), et je voudrais exécuter des algorithmes sur certains ensembles de données. Je voudrais que les algorithmes eux-mêmes soient évolutifs, ce qui exclut l'utilisation d'outils tels que Weka, R ou même RHadoop. La bibliothèque Apache Mahout semble être une bonne option, et elle propose des algorithmes pour les tâches de régression et de clustering .
Ce que j'ai du mal à trouver, c'est une solution pour la détection d'anomalies ou de valeurs aberrantes.
Étant donné que Mahout propose des modèles de Markov cachés et une variété de techniques de clustering (y compris K-Means), je me demandais s'il serait possible de construire un modèle pour détecter les valeurs aberrantes dans les séries chronologiques, en utilisant tout cela. Je serais reconnaissant si quelqu'un expérimenté dans ce domaine pouvait me conseiller
- si cela est possible, et dans le cas où il est
- comment faire, plus
- une estimation de l'effort requis et
- précision / problèmes de cette approche.