J'utilise le paquet caret dans R pour créer des modèles prédictifs de classification et de régression. Caret fournit une interface unifiée permettant de régler les hyper-paramètres de modèle par validation croisée ou initialisation. Par exemple, si vous construisez un modèle simple de classification 'voisins les plus proches', combien de voisins devez-vous utiliser? 2? dix? 100? Caret vous aide à répondre à cette question en rééchantillonnant vos données, en essayant différents paramètres, puis en agrégeant les résultats pour déterminer lequel offre la meilleure précision prédictive.
J'aime cette approche car elle fournit une méthodologie robuste pour choisir les hyper-paramètres du modèle. Une fois que vous avez choisi les hyper-paramètres finaux, elle fournit une estimation croisée de la "qualité" du modèle, en utilisant la précision des modèles de classification. et RMSE pour les modèles de régression.
Je souhaite maintenant créer un modèle de régression pour certaines données chronologiques, en utilisant probablement une forêt aléatoire. Quelle est la bonne technique pour évaluer la précision prédictive de mon modèle, compte tenu de la nature des données? Si les forêts aléatoires ne s'appliquent pas vraiment aux données chronologiques, quel est le meilleur moyen de créer un modèle d'ensemble précis pour l'analyse des séries chronologiques?