Contexte: Je développe un système qui analyse les données cliniques pour filtrer les données invraisemblables qui pourraient être des fautes de frappe.
Ce que j'ai fait jusqu'à présent:
Pour quantifier la plausibilité, ma tentative jusqu'à présent était de normaliser les données, puis de calculer une valeur de plausibilité pour le point p en fonction de sa distance aux points de données connus dans l'ensemble D (= l'ensemble d'apprentissage):
Avec cette quantification, je peux ensuite sélectionner un seuil qui sépare les données plausibles des données invraisemblables. J'utilise python / numpy.
Mes problèmes:
- Cet algorithme ne peut pas détecter les dimensions indépendantes. Idéalement, je pourrais mettre tout ce que je sais de l'enregistrement dans l'algorithme et le laisser découvrir par lui-même que la dimension X n'influence pas la plausibilité de l'enregistrement.
- L'algorithme ne fonctionne pas vraiment pour les valeurs discrètes comme les booléens ou les entrées de sélection. Ils peuvent être mappés sur des valeurs continues, mais il est contre-intuitif que Select 1 soit plus proche de Select 2 que de Select 3.
Question:
Quel type d'algorithmes dois-je étudier pour cette tâche? Il semble y avoir une tonne d'options, y compris les approches basées sur le voisin le plus proche, les clusters et les statistiques. De plus, j'ai du mal à trouver des articles traitant de la détection des anomalies de cette complexité.
Tout conseil est fortement apprécié.
[Modifier] Exemple:
Supposons que les données se composent de la taille d'une personne, du poids d'une personne et de l'horodatage - il s'agit donc de données 3D. Le poids et la taille sont corrélés, mais l'horodatage est complètement indépendant. Si je considère uniquement les distances euclidiennes, je devrais choisir un petit seuil pour s'adapter à la plupart de mes données de validation croisée. Idéalement, l'algorithme ignorerait simplement la dimension d'horodatage, car il n'est pas pertinent de déterminer si un enregistrement est plausible, car l'horodatage n'est en aucun cas en corrélation avec les autres dimensions. Tout horodatage est plausible.
D'un autre côté, on pourrait inventer des exemples où l'horodatage est important. Par exemple, il se peut que la valeur Y pour la caractéristique X soit plausible lorsqu'elle est mesurée avant une certaine date, mais pas après une certaine date.