Combien de fonctionnalités échantillonner à l'aide de forêts aléatoires

La page Wikipédia qui cite "Les éléments de l'apprentissage statistique" dit:

Typiquement, pour un problème de classification avec fonctionnalités, $p$ fonctionssont utilisées dans chaque division. $\lfloor \sqrt{p}\rfloor$

Je comprends que cette supposition est assez bonne et qu'elle a probablement été confirmée par des preuves empiriques, mais y a-t-il d'autres raisons pour lesquelles on choisirait la racine carrée? Y a-t-il un phénomène statistique qui se passe là-bas?

Est-ce que cela aide en quelque sorte à réduire la variance des erreurs?

Est-ce la même chose pour la régression et la classification?

— Valentin Calomme
source

$\log_2(N +1$

Le nombre d'entités sélectionnées au hasard peut influencer l'erreur de généralisation de deux manières: la sélection de nombreuses entités augmente la force des arbres individuels tandis que la réduction du nombre d'entités conduit à une corrélation plus faible entre les arbres, augmentant la force de la forêt dans son ensemble.

Ce qui est intéressant, c'est que les auteurs de Random Forests (pdf) trouvent une différence empirique entre la classification et la régression:

Une différence intéressante entre la régression et la classification est que la corrélation augmente assez lentement à mesure que le nombre de caractéristiques utilisées augmente.

$N/3$ $\sqrt N$

$\sqrt N$ $\log N$

La plage intermédiaire est généralement grande. Dans cette plage, à mesure que le nombre de caractéristiques augmente, la corrélation augmente, mais PE * (arbre) compense en diminuant.

(PE * étant l'erreur de généralisation)

Comme ils le disent dans Elements of Statistical Learning:

Dans la pratique, les meilleures valeurs pour ces paramètres dépendent du problème et doivent être traitées comme des paramètres de réglage.

Une chose dont votre problème peut dépendre est le nombre de variables catégorielles. Si vous avez de nombreuses variables catégorielles codées en tant que variables fictives, il est généralement judicieux d'augmenter le paramètre. Encore une fois, du papier Random Forests:

Lorsque de nombreuses variables sont catégoriques, l'utilisation d'un faible [nombre de caractéristiques] entraîne une faible corrélation, mais également une faible résistance. [Le nombre de fonctionnalités] doit être augmenté à environ deux à trois fois $int(log_2M+1)$ pour obtenir suffisamment de force pour fournir une bonne précision de l'ensemble de test.

— oW_
source

Merci, c'est une réponse très utile. En effet, je pensais qu'il y avait quelque chose à voir avec la force de chaque arbre par rapport à la force de la forêt dans son ensemble. Et en effet, très intéressant qu'il y ait une telle différence entre régression et classification. Merci beaucoup d'avoir lié le papier original. J'ai essayé de collecter de tels papiers pour beaucoup de techniques.

— Valentin Calomme