Je ne peux pas être précis sur la nature des données car elles sont propriétaires, mais supposons que nous ayons des données comme celle-ci: chaque mois, certaines personnes s'inscrivent à un service. Ensuite, au cours de chaque mois suivant, ces personnes peuvent mettre à niveau le service, interrompre le service ou se voir refuser le service (par exemple pour non-paiement). Pour la première cohorte de nos données, nous avons environ 2 ans de données (24 mois).
Le nombre de personnes se joignant chaque mois est important (de l'ordre de 100 000) et le nombre de personnes faisant l'une des trois choses est par milliers. Cependant, nous n'utilisons pas les données au niveau individuel (qui seraient des millions de lignes) mais des données agrégées par mois et par cohorte (quelle proportion de chaque cohorte fait chaque chose chaque mois).
Nous avons modélisé des données existantes à l'aide de splines de régression adaptative multivariée (MARS) et trouvé des résultats intéressants. Cependant, je m'inquiète de les utiliser pour extrapoler ou prédire l'avenir. Mes préoccupations sont dues au fait que les prédictions dans le futur sont nécessairement en dehors de l'espace d'échantillonnage (en termes de temps) et les splines peuvent devenir instables pour l'extrapolation.
Est-ce une méthode légitime? Quelles sont les préoccupations et peuvent-elles être résolues?