Détection évolutive des valeurs aberrantes / des anomalies


10

J'essaie de configurer une infrastructure de Big Data en utilisant Hadoop, Hive, Elastic Search (entre autres), et je voudrais exécuter des algorithmes sur certains ensembles de données. Je voudrais que les algorithmes eux-mêmes soient évolutifs, ce qui exclut l'utilisation d'outils tels que Weka, R ou même RHadoop. La bibliothèque Apache Mahout semble être une bonne option, et elle propose des algorithmes pour les tâches de régression et de clustering .

Ce que j'ai du mal à trouver, c'est une solution pour la détection d'anomalies ou de valeurs aberrantes.

Étant donné que Mahout propose des modèles de Markov cachés et une variété de techniques de clustering (y compris K-Means), je me demandais s'il serait possible de construire un modèle pour détecter les valeurs aberrantes dans les séries chronologiques, en utilisant tout cela. Je serais reconnaissant si quelqu'un expérimenté dans ce domaine pouvait me conseiller

  1. si cela est possible, et dans le cas où il est
  2. comment faire, plus
  3. une estimation de l'effort requis et
  4. précision / problèmes de cette approche.

1
C'est trop vague pour qu'on y réponde. Les séries temporelles sont trop différentes pour simplement leur lancer des k-means et en retirer quelque chose d'utile. Cela dépend fortement de vos données.
A QUIT - Anony-Mousse

1
Pour la détection des valeurs aberrantes, jetez un œil aux algorithmes d'ELKI. Cela semble être la collection la plus complète de détection des valeurs aberrantes.
A QUIT - Anony-Mousse

Les nouvelles versions d'Elasticsearch intègrent une détection d'anomalies de séries chronologiques (je pense que vous devez acheter le X-Pack). Je ne sais pas quels algorithmes ils utilisent, mais cela pourrait valoir la peine d'étudier une solution standard.
Tom

Réponses:


7

Comment t-digest se compare-t-il à l'algorithme p-carré?
David Marx

Merci pour la réponse: il s'agit d'un modèle simple pour calculer des quantiles extrêmes, et je pense qu'il répondra à mes besoins. Cependant, pour les séries chronologiques plus complexes qui n'ont pas de distribution presque stationnaire, cette approche peut échouer, et c'est à ce moment-là que je pense que nous aurions besoin de quelque chose d'adaptation, comme une chaîne de Markov.
double octet

0

Vous pouvez vous référer à ma réponse liée à H2O R ou à la méthode de détection d'anomalie Python dans stackexchange , car elle est également évolutive.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.