Lorsque vous disposez de données de panel, vous pouvez essayer de résoudre différentes tâches, par exemple la classification / régression des séries chronologiques ou les prévisions de panel. Et pour chaque tâche, il existe de nombreuses approches pour la résoudre.
Lorsque vous souhaitez utiliser des méthodes d'apprentissage automatique pour résoudre les prévisions de panel, il existe un certain nombre d'approches:
En ce qui concerne vos données d'entrée (X), en traitant les unités (par exemple les pays, les individus, etc.) comme des échantillons iid, vous pouvez
- classer les séries chronologiques et traiter chaque groupe comme une colonne distincte, en ignorant tout ordre temporel, avec des groupes égaux pour toutes les unités, la taille du groupe pourrait bien sûr simplement être la mesure de série chronologique observée, ou vous pouvez suréchantillonner et agréger en plus grands groupes, puis utiliser des algorithmes d'apprentissage automatique standard pour les données tabulaires,
- ou extraire des entités de la série chronologique pour chaque unité, et utiliser chaque entité extraite en tant que colonnes distinctes, combinées à nouveau avec des algorithmes tabulaires standard,
- ou utiliser des algorithmes de régression / classification de séries chronologiques spécialisés selon que vous observez des données de séries chronologiques continues ou catégorielles, cela inclut des machines à vecteurs de support avec des noyaux spéciaux qui comparent les séries chronologiques avec les séries chronologiques.
En ce qui concerne vos données de sortie (y), si vous souhaitez prévoir plusieurs points dans le futur, vous pouvez
- adapter un estimateur pour chaque étape à venir que vous souhaitez prévoir, en utilisant toujours les mêmes données d'entrée,
- ou ajuster un seul estimateur pour la première étape à venir et dans la prédiction, rouler les données d'entrée dans le temps, en utilisant les prédictions de première étape à ajouter aux données d'entrée observées pour faire les prédictions de deuxième étape et ainsi de suite.
Toutes les approches ci-dessus réduisent essentiellement le problème de prévision des panels à un problème de régression de séries chronologiques ou de régression tabulaire. Une fois que vos données sont au format série chronologique ou régression tabulaire, vous pouvez également ajouter des fonctionnalités invariantes dans le temps pour les utilisateurs.
Bien sûr, il existe d'autres options pour résoudre le problème de prévision de panel, comme par exemple en utilisant des méthodes de prévision classiques comme ARIMA adaptées aux données de panel ou des méthodes d'apprentissage approfondi qui vous permettent de faire directement des prédictions de séquence en séquence.