Étant donné une séquence d'entrées, je dois déterminer si cette séquence a une certaine propriété souhaitée. La propriété ne peut être vraie ou fausse, c'est-à-dire qu'il n'y a que deux classes possibles auxquelles une séquence peut appartenir.
La relation exacte entre la séquence et la propriété n'est pas claire, mais je pense qu'elle est très cohérente et devrait se prêter à une classification statistique. J'ai un grand nombre de cas sur lesquels former le classificateur, bien que cela puisse être légèrement bruyant, dans le sens où il y a une légère probabilité qu'une séquence soit affectée à la mauvaise classe dans cet ensemble de formation.
Exemples de données d'entraînement:
Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...
En gros, la propriété est déterminée par l'ensemble des valeurs de la séquence (par exemple, la présence d'un "11" signifie que la propriété sera presque certainement fausse), ainsi que par l' ordre des valeurs (par exemple "21 7 5 "augmente considérablement les chances que la propriété soit vraie).
Après l'entraînement, je devrais être en mesure de donner au classificateur une séquence précédemment invisible, comme (1 21 7 5 3)
, et il devrait produire sa confiance que la propriété est vraie. Existe-t-il un algorithme bien connu pour former un classificateur avec ce type d'entrées / sorties?
J'ai considéré le classificateur bayésien naïf (qui n'est pas vraiment adaptable au fait que l'ordre compte, du moins pas sans briser gravement l'hypothèse que les entrées sont indépendantes). J'ai également étudié l'approche du modèle de Markov caché, qui semble être inapplicable car une seule sortie est disponible, au lieu d'une sortie par entrée. Qu'est-ce que j'ai raté?