J'entraîne un modèle de classification avec Random Forest pour faire la distinction entre 6 catégories. Mes données transactionnelles ont environ 60k + observations et 35 variables. Voici un exemple de son apparence approximative.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
Une fois le modèle créé, j'aimerais noter les observations de la dernière semaine. Comme il y a eu des changements dans le système, les observations les plus récentes ressembleront davantage à l'environnement des observations actuelles que j'aimerais prévoir. Par conséquent, je veux créer une variable de poids afin que la forêt aléatoire accorde plus d'importance aux observations récentes.
Est-ce que quelqu'un sait si le package randomForest dans R est capable de gérer les poids par observation?
Pouvez-vous également suggérer une bonne méthode pour créer la variable de poids? Par exemple, comme mes données datent de 2013, je pensais pouvoir prendre le nombre de mois de la date comme poids. Quelqu'un voit-il un problème avec cette méthode?
Merci d'avance!