Je voudrais utiliser un modèle de régression logistique binaire dans le contexte des données en streaming (séries temporelles multidimensionnelles) afin de prédire la valeur de la variable dépendante des données (ie ligne) qui vient d'arriver, compte tenu des observations passées. Pour autant que je sache, la régression logistique est traditionnellement utilisée pour l'analyse post-mortem, où chaque variable dépendante a déjà été fixée (soit par inspection, soit par la nature de l'étude).
Que se passe-t-il dans le cas des séries chronologiques, où nous voulons faire des prédictions (à la volée) sur la variable dépendante en termes de données historiques (par exemple dans une fenêtre temporelle des dernières secondes) et, bien sûr, la précédente estimations de la variable dépendante?
Et si vous voyez le système ci-dessus au fil du temps, comment devrait-il être construit pour que la régression fonctionne? Faut-il d'abord l'entraîner en étiquetant, disons, les 50 premières lignes de nos données (c'est-à-dire en fixant la variable dépendante à 0 ou 1), puis utiliser l'estimation actuelle du vecteur pour estimer la nouvelle probabilité de la variable dépendante étant 0 ou 1 pour les données qui viennent d'arriver (c'est-à-dire la nouvelle ligne qui vient d'être ajoutée au système)?
Pour clarifier mon problème, j'essaie de construire un système qui analyse un ensemble de données ligne par ligne et essaie de faire la prédiction d'un résultat binaire (variable dépendante), étant donné la connaissance (observation ou estimation) de toutes les dépendances ou explications précédentes variables qui sont arrivées dans une fenêtre de temps fixe. Mon système est dans Rerl et utilise R pour l'inférence.