Je construis un modèle prédictif qui prévoit la probabilité de réussite d'un étudiant à la fin d'un trimestre. Je m'intéresse particulièrement à savoir si l'étudiant réussit ou échoue, où le succès est généralement défini comme la réussite du cours et l'obtention de 70% ou plus de points sur le total des points possibles.
Lorsque je déploie le modèle, l'estimation de la probabilité de réussite doit être mise à jour au fur et à mesure que plus d'informations deviennent disponibles - idéalement immédiatement après que quelque chose se produit, comme lorsqu'un étudiant soumet un devoir ou obtient une note pour celui-ci. Cette mise à jour me semble en quelque sorte bayésienne, mais étant donné ma formation en statistique de l'éducation, c'est un peu en dehors de ma zone de confort.
Jusqu'à présent, j'ai utilisé la régression logistique (en fait le lasso) avec un ensemble de données historiques contenant des instantanés basés sur la semaine. Cet ensemble de données a des observations corrélées, car chaque élève a observations; les observations d'un étudiant sont corrélées. Je ne modélise pas spécifiquement la corrélation dans les observations hebdomadaires d'un élève particulier. Je crois que je n'aurais qu'à considérer cela dans un cadre déductif, car les erreurs standard seraient trop petites. Je pense - mais je ne suis pas sûr à ce sujet - que le seul problème résultant des observations corrélées est que je dois être prudent lorsque je fais une validation croisée pour conserver les observations groupées dans un sous-ensemble des données, afin de ne pas obtenir taux d'erreur hors échantillon artificiellement bas basés sur des prédictions sur une personne que le modèle a déjà vue.
J'utilise le package glmnet de R pour faire un lasso avec un modèle logistique afin de générer une probabilité de réussite / d'échec et de choisir automatiquement des prédicteurs pour un cours particulier. J'ai utilisé la variable semaine comme facteur, interagi avec tous les autres prédicteurs. Je ne pense pas que cela diffère en général de simplement estimer les modèles individuels basés sur une semaine, sauf qu'il donne une idée de la façon dont il peut y avoir un modèle commun qui tient tout au long du terme qui est ajusté via divers facteurs d'ajustement du risque à différentes semaines.
Ma principale question est la suivante: existe-t-il un meilleur moyen de mettre à jour les probabilités de classification au fil du temps plutôt que de simplement diviser l'ensemble de données en instantanés hebdomadaires (ou d'autres intervalles), en introduisant une variable de facteur de période interagissant avec toutes les autres fonctionnalités, et utiliser des fonctionnalités cumulatives (points cumulés gagnés, jours cumulés en classe, etc.)?
Ma deuxième question est: manque-t-il ici quelque chose de critique à propos de la modélisation prédictive avec des observations corrélées?
Ma troisième question est: comment puis-je généraliser cela à une mise à jour en temps réel, étant donné que je fais des instantanés hebdomadaires? Je prévois simplement de brancher des variables pour l'intervalle hebdomadaire en cours, mais cela me semble compliqué.
Pour info, je suis formé en statistiques éducatives appliquées mais j'ai une formation en statistiques mathématiques d'il y a longtemps. Je peux faire quelque chose de plus sophistiqué si cela a du sens, mais j'ai besoin que cela soit expliqué en termes relativement accessibles.