En tant que passe-temps secondaire, j'ai exploré les séries chronologiques de prévision (en particulier, en utilisant R).
Pour mes données, j'ai le nombre de visites par jour, pour chaque jour remontant à près de 4 ans. Dans ces données, il existe des modèles distincts:
- Du lundi au vendredi, il y a beaucoup de visites (le plus haut le lundi / mardi), mais beaucoup moins le samedi et le dimanche.
- Certaines périodes de l'année baissent (c.-à-d. Beaucoup moins de visites autour des vacances aux États-Unis, les étés affichent moins de croissance)
- Croissance significative d'une année sur l'autre
Ce serait bien de pouvoir prévoir une année à venir avec ces données, et aussi de les utiliser pour avoir une croissance mensuelle désaisonnalisée. La principale chose qui me décourage avec une vue mensuelle est:
- Certains mois auront plus de lun / mar que d'autres mois (et ce n'est pas constant au fil des ans non plus). Par conséquent, un mois qui arrive à plus de jours de semaine doit être ajusté en conséquence.
L'exploration des semaines semble également difficile puisque les systèmes de numérotation des semaines passent de 52 à 53 selon l'année, et il ts
ne semble pas que cela soit possible.
J'envisage de prendre une moyenne pour les jours de la semaine du mois, mais l'unité résultante est un peu étrange (croissance des visites moyennes en semaine) et ce serait supprimer des données qui sont valides.
Je pense que ce type de données serait commun dans les séries chronologiques (par exemple, l'utilisation de l'électricité dans un immeuble de bureaux pourrait être quelque chose comme ça), quelqu'un a-t-il des conseils sur la façon de le modéliser, en particulier dans R?
Les données avec lesquelles je travaille sont assez simples, elles commencent comme:
[,1]
2008-10-05 17607
2008-10-06 36368
2008-10-07 40250
2008-10-08 39631
2008-10-09 40870
2008-10-10 35706
2008-10-11 18245
2008-10-12 23528
2008-10-13 48077
2008-10-14 48500
2008-10-15 49017
2008-10-16 50733
2008-10-17 46909
2008-10-18 22467
et continue ainsi jusqu'à présent, avec une tendance générale à la croissance, certaines baisses autour des semaines de vacances aux États-Unis et une croissance généralement ralentie pendant l'été.
ts
(et même msts
) ne correspond pas à une période d'échantillonnage d'une semaine avec une période "naturelle" d'une année (pas plus que les calendriers, je suppose). Ou, je ne comprends pas comment faire fonctionner ça ...