Détection évolutive des valeurs aberrantes / des anomalies

10

J'essaie de configurer une infrastructure de Big Data en utilisant Hadoop, Hive, Elastic Search (entre autres), et je voudrais exécuter des algorithmes sur certains ensembles de données. Je voudrais que les algorithmes eux-mêmes soient évolutifs, ce qui exclut l'utilisation d'outils tels que Weka, R ou même RHadoop. La bibliothèque Apache Mahout semble être une bonne option, et elle propose des algorithmes pour les tâches de régression et de clustering .

Ce que j'ai du mal à trouver, c'est une solution pour la détection d'anomalies ou de valeurs aberrantes.

Étant donné que Mahout propose des modèles de Markov cachés et une variété de techniques de clustering (y compris K-Means), je me demandais s'il serait possible de construire un modèle pour détecter les valeurs aberrantes dans les séries chronologiques, en utilisant tout cela. Je serais reconnaissant si quelqu'un expérimenté dans ce domaine pouvait me conseiller

si cela est possible, et dans le cas où il est
comment faire, plus
une estimation de l'effort requis et
précision / problèmes de cette approche.

— double octet
source

1

C'est trop vague pour qu'on y réponde. Les séries temporelles sont trop différentes pour simplement leur lancer des k-means et en retirer quelque chose d'utile. Cela dépend fortement de vos données.

— A QUIT - Anony-Mousse

1

Pour la détection des valeurs aberrantes, jetez un œil aux algorithmes d'ELKI. Cela semble être la collection la plus complète de détection des valeurs aberrantes.

— A QUIT - Anony-Mousse

Les nouvelles versions d'Elasticsearch intègrent une détection d'anomalies de séries chronologiques (je pense que vous devez acheter le X-Pack). Je ne sais pas quels algorithmes ils utilisent, mais cela pourrait valoir la peine d'étudier une solution standard.

— Tom

7

Je voudrais jeter un œil à l' algorithme t-digest . Il a été fusionné dans mahout et fait également partie de certaines autres bibliothèques pour le streaming de Big Data. Vous pouvez en savoir plus sur cet algorithme en particulier et la détection d'anomalies de Big Data en général dans les ressources suivantes:

— prudenko
source

Comment t-digest se compare-t-il à l'algorithme p-carré?

— David Marx

Merci pour la réponse: il s'agit d'un modèle simple pour calculer des quantiles extrêmes, et je pense qu'il répondra à mes besoins. Cependant, pour les séries chronologiques plus complexes qui n'ont pas de distribution presque stationnaire, cette approche peut échouer, et c'est à ce moment-là que je pense que nous aurions besoin de quelque chose d'adaptation, comme une chaîne de Markov.

— double octet

0

Vous pouvez vous référer à ma réponse liée à H2O R ou à la méthode de détection d'anomalie Python dans stackexchange , car elle est également évolutive.

— 0xF
source