Je travaille avec des données de séquence qui sont de longues listes d'appels win-api de logiciels malveillants. J'essaie de jeter le problème de l'identification du «comportement de malware» dans celui de trouver des modèles séquentiels. Je traite chaque appel d'API comme un élément unique. Le nombre d'éléments différents possibles (appels api) est assez important.
Maintenant, lorsque j'applique l' algorithme SPADE (voir aussi, Zaki, SPADE: Un algorithme efficace pour extraire des séquences fréquentes , Machine Learning, 42, 31–60, 2001), je rencontre des problèmes de mémoire. Existe-t-il une meilleure alternative pour trouver des modèles séquentiels parmi les grandes séquences de vocabulaire élevé?