Je suis relativement nouveau dans les forêts aléatoires. Dans le passé, j'ai toujours comparé la précision de l' ajustement vs le test à l' ajustement vs le train pour détecter tout sur-ajustement. Mais je viens de lire ici que:
"Dans les forêts aléatoires, il n'y a pas besoin de validation croisée ou d'un ensemble de tests séparé pour obtenir une estimation impartiale de l'erreur de l'ensemble de tests. Elle est estimée en interne, pendant l'exécution ..."
Le petit paragraphe ci-dessus se trouve dans la section Estimation des erreurs hors du sac (oob) . Ce concept d'erreur hors du sac est complètement nouveau pour moi et ce qui est un peu déroutant, c'est la façon dont l'erreur OOB dans mon modèle est de 35% (ou 65% de précision), mais pourtant, si j'applique une validation croisée à mes données (juste un simple holdout) méthode) et comparer les deux ajustement vs test contre ajustement vs train, j'obtiens une précision de 65% et une précision de 96% respectivement. D'après mon expérience, cela est considéré comme sur-ajusté, mais l'OOB contient une erreur de 35% tout comme mon erreur d' ajustement par rapport à l' erreur de test . Suis-je trop en forme? Dois-je même utiliser la validation croisée pour vérifier le sur-ajustement dans les forêts aléatoires?
En bref, je ne sais pas si je dois faire confiance à l'OOB pour obtenir une erreur non biaisée de l'erreur de l'ensemble de test lorsque mon ajustement par rapport au train indique que je suis en sur-ajustement!