J'essaie d'utiliser la régression RF pour faire des prédictions sur les performances d'une papeterie.
J'ai des données minute par minute pour les intrants (taux et quantité de pâte de bois entrant dans etc ...) ainsi que pour les performances de la machine (papier produit, puissance tirée par la machine) et cherche à faire des prédictions 10 minutes en avant sur les variables de performance.
J'ai 12 mois de données, alors je les ai séparées en 11 mois pour l'ensemble de formation et le dernier mois pour les tests.
Jusqu'à présent, j'ai créé 10 nouvelles fonctionnalités qui sont des valeurs décalées de 1 à 10 minutes pour chacune des variables de performance, et les ai utilisées ainsi que les entrées pour faire des prédictions. Les performances sur l'ensemble de test ont été assez bonnes (le système est assez prévisible), mais je crains de manquer quelque chose dans mon approche.
Par exemple, dans cet article , les auteurs exposent leur approche en testant la capacité prédictive de leur modèle de forêt aléatoire:
La simulation se poursuit par l'ajout itératif d'une nouvelle semaine de données, la formation d'un nouveau modèle basé sur les données mises à jour et la prévision du nombre d'épidémies pour la semaine suivante
En quoi est-ce différent de l'utilisation de données «ultérieures» dans la série chronologique comme test? Dois-je valider mon modèle de régression RF avec cette approche ainsi que sur l'ensemble de données de test? De plus, ce type d'approche «autorégressive» de la régression aléatoire des forêts est-il valable pour les séries chronologiques, et ai-je même besoin de créer autant de variables retardées si je suis intéressé par une prédiction à 10 minutes dans le futur?