Je pense que c'est une question simple, bien que le raisonnement derrière pourquoi ou pourquoi ne le soit pas. La raison pour laquelle je demande, c'est que j'ai récemment écrit ma propre implémentation d'un RF et bien qu'il fonctionne bien, il ne fonctionne pas aussi bien que prévu (basé sur l' ensemble de données du concours Kaggle Photo Quality Prediction , les scores gagnants et certains des les informations ultérieures disponibles sur les techniques utilisées).
La première chose que je fais dans de telles circonstances est l'erreur de prédiction de tracé pour mon modèle, donc pour chaque valeur de prédiction donnée, je détermine le biais (ou écart) moyen par rapport à la valeur cible correcte. Pour mon RF, j'ai obtenu cette intrigue:
Je me demande s'il s'agit d'un modèle de biais couramment observé pour les RF (sinon, cela pourrait peut-être être quelque chose de spécifique à l'ensemble de données et / ou à ma mise en œuvre). Je peux bien sûr utiliser ce tracé pour améliorer les prévisions en l'utilisant pour compenser le biais, mais je me demande s'il y a une erreur ou une lacune plus fondamentale dans le modèle RF lui-même qui doit être corrigée. Merci.
== ADDENDUM ==
Mon enquête initiale se trouve sur cette entrée de blog Random Forest Bias - Update