La page Wikipédia qui cite "Les éléments de l'apprentissage statistique" dit:
Typiquement, pour un problème de classification avec fonctionnalités, ⌊ √ fonctions p ⌋sont utilisées dans chaque division.
Je comprends que cette supposition est assez bonne et qu'elle a probablement été confirmée par des preuves empiriques, mais y a-t-il d'autres raisons pour lesquelles on choisirait la racine carrée? Y a-t-il un phénomène statistique qui se passe là-bas?
Est-ce que cela aide en quelque sorte à réduire la variance des erreurs?
Est-ce la même chose pour la régression et la classification?