tl; dr
- Quelle est la méthode recommandée pour traiter les
discrete
données lors de la détection d'anomalies? - Quelle est la méthode recommandée pour traiter les
categorical
données lors de la détection d'anomalies? - Cette réponse suggère d'utiliser des données discrètes pour filtrer simplement les résultats.
- Peut-être remplacer la valeur de la catégorie par la chance d'observation de l'observation?
Intro
C'est ma première publication ici, donc s'il vous plaît, si quelque chose ne semble pas techniquement correct, que ce soit dans le formatage ou l'utilisation de définitions correctes, je suis intéressé de savoir ce qui aurait dû être utilisé à la place.
À partir de.
J'ai récemment participé au cours de Machine Learning d'Andrew Ng
Pour la détection des anomalies, nous avons appris à déterminer quels sont les paramètres de distribution normale / gaussienne pour une caractéristique / variable donnée, dans un ensemble de données, puis à déterminer la probabilité d'un ensemble choisi d'exemples d'apprentissage / de valeur d'observation étant donné que distribution gaussienne particulière, puis en prenant le produit des probabilités des caractéristiques.
Méthode
Choisissez caractéristiques / variables qui, selon nous, expliquent l'activité en question:
Ajustez les paramètres de la gaussienne pour chaque :
Pour chaque exemple de formation, , calculez:
Nous signalons ensuite comme une anomalie ( ), étant donné:
Cela nous donne la méthode pour déterminer si un exemple nécessite une inspection plus approfondie.
Mes questions)
Cela semble correct pour les variables / caractéristiques continues, mais les données discrètes ne sont pas traitées.
Qu'en est-il des variables factices, par exemple une fonction de drapeau de genre, éventuellement appelée [IsMale]
qui peut avoir la valeur ? Pour prendre en compte une fonction factice, utiliserions-nous plutôt la distribution binomiale pour calculer ?
Qu'en est-il des données catégorielles telles que la couleur de la voiture? Bien que nous puissions mapper les couleurs à des valeurs numériques, par exemple , la distribution d'une telle caractéristique catégorielle pourrait être proche de l'uniforme (c.-à-d. La chance tout aussi probable d'être l'une des couleurs), et plus encore, comme tout le mappage numérique qui se produit (c.-à-d. le ayant la valeur , etc.) n'est pas ordinale, est-il sensé d'essayer de transformer toute distribution non normale de fréquences pour que les couleurs soient normalement distribuées (est-il même important que ce ne soit pas ordinal? ?)? Par exemple, pour moi, cela n'aurait aucun sens de faire une transformation car les données ne sont ni continues ni ordinales. Alors peut-être serait-il préférable de trouver une distribution discrète qui correspond à la fonctionnalité, par opposition à "torturer" les données pour s'adapter à la gaussienne?
Questions: (mis à jour: 2015-11-24)
Les variables binaires peuvent-elles être modélisées avec une distribution de probabilité binomiale et devenir un autre facteur dans le calcul de ?Les variables catégorielles devraient-elles être modélisées avec une distribution de probabilité discrète au lieu d'une gaussienne et devenir un autre facteur dans le calcul de ?Existe-t-il une autre méthode qui prend en compte ce que je demande ici et que je peux approfondir / approfondir?- Quelle est la méthode recommandée pour traiter les
discrete
données lors de la détection d'anomalies? - Quelle est la méthode recommandée pour traiter les
categorical
données lors de la détection d'anomalies?
Modifier: 2017-05-03
- Cette réponse suggère d'utiliser des données discrètes pour filtrer simplement les résultats.
- Peut-être remplacer la valeur de la catégorie par la chance d'observation de l'observation?