J'ai un ensemble de données chronologiques. Chaque série couvre la même période, bien que les dates réelles dans chaque série chronologique ne soient pas toutes "alignées" exactement.
Autrement dit, si la série chronologique devait être lue dans une matrice 2D, elle ressemblerait à ceci:
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
Je veux écrire un script R qui séparera la série temporelle {T1, T2, ... TN} en "familles", une famille étant définie comme un ensemble de séries qui "ont tendance à se déplacer dans la sympathie" les unes avec les autres.
Pour la partie "clustering", je devrai sélectionner / définir un type de mesure de distance. Je ne sais pas trop comment procéder, car je traite de séries chronologiques, et une série de séries pouvant émouvoir par sympathie sur un intervalle peut ne pas l'être dans un intervalle ultérieur.
Je suis sûr qu'il y a beaucoup plus de personnes expérimentées / intelligentes que moi ici, donc je vous serais reconnaissant de toute suggestion ou idée sur l'algorithme / l'heuristique à utiliser pour la mesure de distance et sur la façon de l'utiliser pour regrouper les séries chronologiques.
À mon avis, il n’ya PAS de méthode statistique bien établie pour le faire. Je serais donc très intéressé de voir comment les gens abordent / résolvent ce problème - pensant comme un statisticien.