Comment attribuer plus de poids à des observations plus récentes dans R?
Je suppose que c'est une question ou un désir fréquemment posé, mais j'ai du mal à trouver exactement comment mettre en œuvre cela. J'ai essayé de chercher beaucoup pour cela, mais je ne peux pas trouver un bon exemple pratique.
Dans mon exemple, j'aurais un grand ensemble de données au fil du temps. Je veux dire appliquer une sorte de pondération exponentielle des lignes de données les plus récentes. J'aurais donc une sorte de fonction exponentielle disant que les observations en 2015 sont ___ plus importantes pour la formation du modèle que les observations en 2012.
Mes variables d'ensemble de données contiennent un mélange de valeurs catégorielles et numériques et ma cible est une valeur numérique - si cela importe.
Je voudrais tester / essayer cela en utilisant des modèles tels que GBM / Random Forest, idéalement dans le package CARET.
mise à jour-question
J'apprécie la réponse donnée ci-dessous sur la façon de décomposer de façon exponentielle le poids par la distance de date entre deux points.
Cependant, en ce qui concerne la formation de ce modèle au curseur, comment les poids prennent-ils en compte exactement? La valeur de poids dans chacune des lignes d'entraînement est la distance entre un point dans le futur et le moment où ce point s'est produit historiquement.
Les poids entrent-ils en jeu uniquement lors de la prédiction? Parce que s'ils entrent en jeu pendant l'entraînement, cela ne causerait-il pas toutes sortes de problèmes, car divers plis croisés auraient des poids variables, essayant de prédire quelque chose qui aurait pu se produire à un moment donné avant lui?