Divulgation complète: je ne suis pas statisticien et je ne prétends pas l'être. Je suis un administrateur informatique modeste. Veuillez jouer doucement avec moi. :)
Je suis responsable de la collecte et de la prévision de l'utilisation du stockage sur disque pour notre entreprise. Nous collectons mensuellement notre utilisation du stockage et utilisons une simple régression linéaire glissante sur douze mois pour les prévisions (en d'autres termes, seuls les douze mois de données précédents sont pris en compte lors d'une projection). Nous utilisons ces informations pour la répartition et la planification des dépenses en capital, par exemple "Sur la base de ce modèle, nous devrons acheter x montant si le stockage dans y mois pour répondre à nos besoins." Tout cela fonctionne assez bien pour répondre à nos besoins.
Périodiquement, nous avons d'importants mouvements ponctuels dans nos chiffres, ce qui annule les prévisions. Par exemple, quelqu'un trouve 500 Go d'anciennes sauvegardes qui ne sont plus nécessaires et les supprime. Bon pour eux pour récupérer l'espace! Cependant, nos prévisions sont désormais biaisées par cette forte baisse en un mois. Nous avons toujours juste accepté qu'une baisse comme celle-ci prenne 9 à 10 mois pour sortir des modèles, mais cela peut être très long si nous entrons dans la saison de planification des dépenses en capital.
Je me demande s'il existe un moyen de gérer ces variations ponctuelles de sorte que les valeurs prévues ne soient pas autant impactées (par exemple, la pente de la ligne ne change pas de manière aussi spectaculaire), mais elles sont prises en compte (par exemple un changement unique de la valeur y associée à un moment particulier). Nos premières tentatives pour y remédier ont donné de mauvais résultats (par exemple, des courbes de croissance exponentielle). Nous effectuons tout notre traitement dans SQL Server si cela est important.