Quelle est la différence entre Outlier et Anomaly dans le contexte de l'apprentissage automatique. Je crois comprendre que les deux se réfèrent à la même chose.
Quelle est la différence entre Outlier et Anomaly dans le contexte de l'apprentissage automatique. Je crois comprendre que les deux se réfèrent à la même chose.
Réponses:
Les deux termes sont synonymes selon:
Aggarwal, Charu C. Analyse des valeurs aberrantes. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Citation de la page 1:
Les valeurs aberrantes sont également appelées anomalies, discordances, déviations ou anomalies dans la littérature d'exploration de données et de statistiques.
Le texte en gras ne fait pas partie du texte d'origine.
Le pdf gratuit à télécharger du livre disponible auprès de l'auteur est ici.
Une réponse ironique:
Valeur aberrante: une valeur que vous trouvez de manière prévisible dans vos données qui indique que votre modèle ne fonctionne pas correctement
Anomalie: une valeur qui, contre toute attente trouvée dans vos données, indique que votre modèle fonctionne correctement
Une réponse plus sérieuse et moins cryptique:
Le concept de valeurs aberrantes part de la question de la construction d'un modèle qui fait des hypothèses sur les données. Les valeurs aberrantes sont souvent des indicateurs que le modèle ne décrit pas correctement les données et nous devons donc remettre en question les résultats de notre modèle ou la qualité de nos données.
Le concept d'anomalies commence à l'extérieur du monde théorique et à l'intérieur du monde appliqué: nous voulons rechercher un comportement inhabituel dans nos données, parfois motivé par le fait que nous sommes intéressés à trouver un comportement que quelqu'un essaie de cacher (comme un virus dans un email). Le problème est que puisque les gens essaient de cacher ce qu'ils font, nous ne savons pas vraiment quoi chercher. Nous prenons donc un ensemble de «bonnes» données, et décidons que tout ce que nous trouvons dans notre nouvel ensemble de données qui ne semble pas «bon» est une anomalie et mérite notre temps pour vérifier plus en détail. Souvent, la recherche d'anomalies signifie la recherche de valeurs aberrantes dans votre nouvel ensemble de données. Mais notez que ces valeurs peuvent être très courantes dans votre nouvel ensemble de données, bien qu'elles soient rares dans votre ancien ensemble de données!
En résumé, les deux concepts sont très similaires en termes de statistiques derrière eux (c'est-à-dire des valeurs inhabituelles compte tenu de votre modèle ajusté) mais viennent à l'idée sous des angles différents. De plus, lorsque nous parlons de valeurs aberrantes, nous entendons généralement un point de données inhabituel dans les données utilisées pour ajuster notre modèle , alors qu'une anomalie est généralement considérée comme un point de données inhabituel dans un ensemble de données en dehors des données utilisées pour ajuster notre modèle .
Remarque: cette réponse est basée sur la façon dont j'ai vu les deux termes fréquemment utilisés plutôt que sur les définitions formelles. Les expériences des utilisateurs peuvent différer.
Une anomalie est un résultat qui ne peut pas être expliqué étant donné la distribution de base (une impossibilité si nos hypothèses sont correctes). Une valeur aberrante est un événement peu probable compte tenu de la distribution de base (une improbabilité).
Les termes sont largement utilisés de manière interchangeable. "Valeur aberrante" se réfère à quelque chose qui se situe en dehors de la norme - c'est donc "anormal". Mais j'ai l'impression que «valeur aberrante» est généralement utilisée pour de très rares observations. En statistiques, sur une distribution normale, vous considéreriez trois sigma comme des valeurs aberrantes. Cela signifie que 99,7% de vos objets devraient être "normaux". "Anomalie" est utilisée de manière beaucoup plus libérale. Si vous avez soudainement des millions de visiteurs sur votre site Web, ce ne sont pas des visiteurs rares. L'augmentation soudaine du nombre de visiteurs reste cependant "anormale", alors que chaque visiteur individuel n'est pas une "valeur aberrante".
C'est peut-être dans cet article que j'ai vu ces différences discutées, mais je ne peux pas y accéder pour l'instant, malheureusement.
Analyse statistique et exploration de données, volume 5, numéro 5, octobre 2012, pages 363–387 Une enquête sur la détection non surveillée des valeurs aberrantes dans les données numériques de grande dimension
Juste pour embrouiller les eaux plus loin, en climatologie, une anomalie implique simplement la différence entre la valeur et la moyenne, ou une déviation:
Le terme anomalie de température signifie un écart par rapport à une valeur de référence ou à une moyenne à long terme. Une anomalie positive indique que la température observée était plus chaude que la valeur de référence, tandis qu'une anomalie négative indique que la température observée était plus froide que la valeur de référence.
Cela peut bien être considéré comme un apprentissage automatique en dehors, mais les personnes intéressées par la question peuvent être intéressées par cela.
Une valeur aberrante est un point de données qui rend difficile l'ajustement d'un modèle. Vous faites face à des valeurs aberrantes, souvent à contrecœur, lorsque vous essayez d'ajuster un modèle sur votre jeu de données. La suppression des valeurs aberrantes permet de construire de meilleurs modèles (c'est-à-dire plus généralisables). Un point serait une valeur aberrante pour le modèle . Vous l'ignorez à la lumière du fait que tous vos autres points, , plus en forme .
Une anomalie peut être un point de données, ou également une tendance générale ou un comportement observé dans les données après qu'un modèle a déjà été construit ou une compréhension du processus de génération de données formé. Vous êtes confronté à des anomalies car le système commence à se comporter différemment, ou vous recherchez de tels points de données, car vous souhaitez être informé lorsqu'un événement se produit au cours duquel votre modèle n'est pas valide. Vous pouvez vous soucier d'observer tout comportement anormal dans les amplitudes des vagues océaniques, non pas parce que vous voulez jeter ces points de données et construire un meilleur modèle, mais parce que vous voulez savoir quand un tsunami pourrait se produire.