Traditionnellement, nous utilisons un modèle mixte pour modéliser des données longitudinales, c'est-à-dire des données comme:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
nous pouvons supposer une interception ou une pente aléatoire pour différentes personnes. Cependant, la question que j'essaie de résoudre impliquera d'énormes ensembles de données (des millions de personnes, 1 mois d'observation quotidienne, c'est-à-dire que chaque personne aura 30 observations), actuellement je ne sais pas si des packages peuvent faire ce niveau de données.
J'ai accès à spark / mahout, mais ils n'offrent pas de modèles mixtes, ma question est, est-il de toute façon que je peux modifier mes données afin que je puisse utiliser RandomForest ou SVM pour modéliser cet ensemble de données?
Y a-t-il une technique d'ingénierie de fonctionnalités que je peux utiliser pour aider RF / SVM à prendre en compte l'auto-corrélation?
Merci beaucoup!
Quelques méthodes potentielles mais je ne pouvais pas me permettre de les écrire
Comment puis-je inclure des effets aléatoires dans une forêt aléatoire