Vous avez ce que l'on appelle la demande intermittente , c'est-à-dire une série chronologique de demande caractérisée par "plusieurs" zéros. (Si votre série chronologique n'est pas la demande en soi, la plupart de ce qui suit s'applique toujours.) Une recherche sur le Web pour "prévoir la demande intermittente" serait donc déjà utile. Teunter et Duncan (2009, JORS) donnent un aperçu des méthodes de prévision de la demande intermittente.
La méthode standard de prévision des demandes intermittentes est la méthode de Croston. Utilisez séparément le lissage exponentiel sur les intervalles entre demandes et sur les tailles de demande non nulles . La prévision ponctuelle est alors le rapport de la demande non nulle lissée à l'intervalle inter-demande lissé. Syntetos et Boylan (2001, IJPE) notent que Croston est légèrement biaisé et propose une modification, mais cela ne fait généralement pas beaucoup de différence dans la pratique.
Une alternative est les modèles de moyenne mobile autorégressifs entiers (INARMA), qui modifient les modèles de séries chronologiques ARIMA standard. Maryam Mohammadipour a rédigé une thèse à ce sujet.
Personnellement, j'ai des doutes majeurs quant à l'utilité d'une telle prévision de point d'attente. Une série chronologique de 1 demande toutes les deux périodes a une attente de 0,5 ... tout comme une série chronologique de 2 demandes toutes les quatre périodes ... et ainsi de suite - bien que celles-ci soient, bien sûr, de moins en moins Poisson-y . Je dirais qu'il est beaucoup plus utile de comprendre toute la distribution future (et prédictive) des demandes. J'applaudis donc votre recherche d'intervalles de prédiction!
Cependant, la formule vous avez trouvée ne s'applique qu'au lissage exponentiel unique sur des données continues , via le modèle ARIMA SES est optimal pour. Il est donc inapplicable de compter les données. Je préférerais de loin que vous preniez votre prédiction ponctuelle et que vous utilisiez les quantiles de la distribution de Poisson avec le paramètre . Cela ne tient toujours pas compte de l'incertitude d'estimation des paramètres (ainsi que de l'incertitude de sélection du modèle, etc.), mais c'est une possibilité simple et probablement meilleure que la formule que vous avez.α(n−2)y^λ=y^
Shenstone et Hyndman (2005, JoF) notent qu'il n'y a pas de modèle stochastique cohérent pour lequel la méthode de Croston serait optimale - tous les modèles candidats sont (1) continus, non discrets, et (2) peuvent donner des valeurs négatives. Cependant, pour ces modèles candidats, Shenstone et Hyndman fournissent des intervalles de prédiction.
Enfin, une mise en garde: n'utilisez pas le MAD pour évaluer l'exactitude des prévisions de données de comptage, surtout pas pour les demandes intermittentes. Le MAD attendu est minimisé par la médiane de votre distribution future, pas sa moyenne , et si vous écrivez que 65% de vos données sont des zéros, alors la médiane est nulle ... ce qui implique que vous obtiendrez probablement le MAD le plus bas par un plat prévision zéro, qui est fortement biaisée et probablement inutile. Voici une présentation que j'ai faite au Symposium international de l'année dernière sur les prévisions à ce sujet. Ou regardez Morlidge (2015, Foresight) .
Dernière pièce de l'autopromotion sans vergogne: J'ai un article dans l'IJF (Kolassa, 2016) qui examine les prévisions de données de faible volume (principalement intermittentes), différentes mesures de précision et différentes méthodes de prévision, y compris diverses saveurs de modèles de Poisson. Cela peut vous être utile.