J'utilise la forêt aléatoire sur des données groupées de grande dimension (50 variables d'entrée numériques) qui ont une structure hiérarchique. Les données ont été collectées avec 6 réplications à 30 positions de 70 objets différents résultant en 12600 points de données, qui ne sont pas indépendants.
Il semble que la forêt aléatoire sur-ajuste les données, car l'erreur oob est beaucoup plus petite que l'erreur que nous obtenons lorsque nous omettons les données d'un objet pendant la formation et que nous prédisons ensuite le résultat de l'objet exclu avec la forêt aléatoire formée. De plus, j'ai corrélé les résidus.
Je pense que le sur-ajustement est dû au fait que la forêt aléatoire attend des données indépendantes. Est-il possible de dire à la forêt aléatoire la structure hiérarchique des données? Ou existe-t-il une autre méthode puissante d'ensemble ou de rétrécissement qui peut gérer des données groupées de grande dimension avec une structure d'interaction forte?
Une idée de comment je peux faire mieux?