Pour autant que je l'ai vu, les opinions ont tendance à différer à ce sujet. Les meilleures pratiques dicteraient certainement l'utilisation de la validation croisée (surtout si l'on compare les RF avec d'autres algorithmes sur le même ensemble de données). D'un autre côté, la source d'origine indique que le fait que l'erreur OOB soit calculée pendant l'apprentissage du modèle est suffisant pour indiquer les performances de l'ensemble de test. Même Trevor Hastie, dans une conférence relativement récente, a déclaré que "les forêts aléatoires fournissent une validation croisée gratuite". Intuitivement, cela a du sens pour moi, si je m'entraîne et essaie d'améliorer un modèle RF sur un ensemble de données.
Quelqu'un peut-il expliquer les arguments pour et contre la nécessité d'une validation croisée avec des forêts aléatoires?