Je construis souvent un modèle (classification ou régression) où j'ai des variables prédictives qui sont des séquences et j'ai essayé de trouver des recommandations techniques pour les résumer de la meilleure façon possible pour les inclure comme prédicteurs dans le modèle.
À titre d'exemple concret, disons qu'un modèle est en cours de construction pour prédire si un client quittera l'entreprise dans les 90 prochains jours (à tout moment entre t et t + 90; donc un résultat binaire). L'un des prédicteurs disponibles est le niveau de l'équilibre financier des clients pour les périodes t_0 à t-1. Cela représente peut-être des observations mensuelles pour les 12 mois précédents (soit 12 mesures).
Je cherche des moyens de construire des fonctionnalités de cette série. J'utilise des descriptifs de chaque série de clients tels que la moyenne, haut, bas, dév. Std, ajuste une régression OLS pour obtenir la tendance. Sont leurs autres méthodes de calcul des fonctionnalités? Autres mesures de changement ou de volatilité?
AJOUTER:
Comme mentionné dans une réponse ci-dessous, j'ai également envisagé (mais oublié d'ajouter ici) d'utiliser Dynamic Time Warping (DTW), puis un clustering hiérarchique sur la matrice de distance résultante - créant un certain nombre de clusters, puis utilisant l'appartenance au cluster comme fonctionnalité. La notation des données de test devrait probablement suivre un processus où le DTW a été effectué sur de nouveaux cas et les centroïdes de cluster - en faisant correspondre les nouvelles séries de données à leurs centroïdes les plus proches ...