Dans Random Forest, chaque arbre est cultivé en parallèle sur un échantillon boostrap unique des données. Étant donné que chaque échantillon boostrap devrait contenir environ 63% d'observations uniques, cela laisse environ 37% d'observations, qui peuvent être utilisées pour tester l'arbre.
Maintenant, il semble que dans le boosting de gradient stochastique, il existe également une similaire à celle de RF:
Si bag.fraction est défini pour être supérieur à 0 (0,5 est recommandé), gbm calcule une estimation hors sac de l'amélioration des performances prédictives. Il évalue la réduction de l'écart par rapport aux observations non utilisées pour sélectionner le prochain arbre de régression.
Source: Ridgeway (2007) , section 3.3 (page 8).
J'ai du mal à comprendre comment cela fonctionne / est valide. Disons que j'ajoute un arbre dans la séquence. Je fais pousser cet arbre sur un sous-échantillon aléatoire de l'ensemble de données d'origine. J'ai pu tester cet arbre unique sur les observations qui n'ont pas été utilisées pour le faire pousser. D'accord. MAIS , puisque Boosting est séquentiel, j'utilise plutôt toute la séquence d'arbres construits jusqu'à présent pour fournir une prédiction pour ces observations laissées de côté. Et, il y a de fortes chances que bon nombre des arbres précédents aient déjà vu ces observations. Donc, le modèle n'est pas vraiment testé à chaque tour sur des observations invisibles comme avec RF, non?
Alors, comment se fait-il que cela s'appelle une estimation d'erreur "hors du sac"? Pour moi, il ne semble pas être "sorti" de tout sac puisque les observations ont déjà été vues?