Supposons que j'ai un peu plus de 20 000 séries chronologiques mensuelles s'étendant de janvier 2005 à décembre 2011. Chacun d'eux représente les données de ventes mondiales pour un produit différent. Et si, au lieu de calculer des prévisions pour chacun d'entre eux, je voulais me concentrer uniquement sur un petit nombre de produits qui "comptent réellement"?
Je pourrais classer ces produits en fonction du revenu annuel total et réduire la liste en utilisant Pareto classique. Pourtant, il me semble que, même s'ils ne contribuent pas beaucoup au résultat net, certains produits sont si faciles à prévoir que les laisser de côté serait un mauvais jugement. Un produit qui a vendu 50 $ par mois au cours des 10 dernières années peut ne pas sembler beaucoup, mais il nécessite si peu d'efforts pour générer des prévisions sur les ventes futures que je pourrais aussi bien le faire.
Supposons donc que je divise mes produits en quatre catégories: revenus élevés / faciles à prévoir - revenus faibles / faciles à prévoir - revenus élevés / difficiles à prévoir - revenus faibles / difficiles à prévoir.
Je pense qu'il serait raisonnable de ne laisser que les séries chronologiques appartenant au quatrième groupe. Mais comment puis-je évaluer exactement la "prévisibilité"?
Le coefficient de variation semble être un bon point de départ (je me souviens également avoir vu un article à ce sujet il y a un certain temps). Mais que se passe-t-il si mes séries chronologiques présentent une saisonnalité / des changements de niveau / des effets de calendrier / de fortes tendances?
J'imagine que je devrais baser mon évaluation uniquement sur la variabilité de la composante aléatoire et non sur celle des données "brutes". Ou est-ce que je manque quelque chose?
Quelqu'un est-il déjà tombé sur un problème similaire? Comment vous y prendriez-vous?
Comme toujours, toute aide est grandement appréciée!