Je travaille sur un problème de classification de série chronologique où l'entrée est des données d'utilisation vocale de série chronologique (en secondes) pour les 21 premiers jours d'un compte de téléphone portable. La variable cible correspondante est de savoir si ce compte a été annulé dans la fourchette de 35 à 45 jours. C'est donc un problème de classification binaire.
J'obtiens de très mauvais résultats de toutes les méthodes que j'ai essayées jusqu'à présent (à des degrés divers). J'ai d'abord essayé la classification k-NN (avec diverses modifications) et j'ai obtenu des résultats extrêmement mauvais. Cela m'a amené à extraire des caractéristiques de la série chronologique - c'est-à-dire la moyenne, la variance, le maximum, le minimum, le nombre total de jours zéro, le total de zéro jour, la différence entre la moyenne de la première moitié et la moyenne de la deuxième moitié, etc. et les caractéristiques les plus prédictives semblaient être totales zéros jours et total des jours de fin zéro (en utilisant plusieurs algorithmes de classification). Cela a donné les meilleurs résultats, mais les performances n'étaient toujours pas très bonnes.
Ma prochaine stratégie consistait à suréchantillonner les instances négatives de mon ensemble d'entraînement car il y en avait si peu. Cela a abouti à une prédiction d'annulation plus correcte mais au détriment de plus de faux positifs.
Je commence à penser que les données d'utilisation des séries temporelles elles-mêmes ne sont peut-être tout simplement pas très prédictives (bien que le bon sens dise qu'elles devraient l'être). Il y a peut-être une variable latente que je ne considère pas. L'examen des données montre également un comportement étrange. c'est-à-dire que certains exemples montrent une utilisation très faible ou décroissante (ou parfois aucune) et n'annulent pas, et certains montrent une augmentation de l'utilisation qui annule. Ce comportement contradictoire ne génère peut-être pas une frontière de décision très claire pour un classificateur.
Une autre source d'erreur possible est le fait que de nombreux exemples de formation sont très rares (c'est-à-dire de nombreux jours avec 0 utilisation). Une idée que je n'ai pas encore essayée est de diviser la série chronologique en segments et de générer certaines fonctionnalités de cette façon, mais je n'ai pas de grands espoirs.