En lisant l'excellente modélisation statistique: Les deux cultures (Breiman 2001) , nous pouvons saisir toute la différence entre les modèles statistiques traditionnels (par exemple, la régression linéaire) et les algorithmes d'apprentissage automatique (par exemple, Bagging, Random Forest, Boosted trees ...).
Breiman critique les modèles de données (paramétriques) car ils sont basés sur l'hypothèse que les observations sont générées par un modèle formel connu prescrit par le statisticien, qui peut mal émuler la nature. D'un autre côté, les algos ML n'assument aucun modèle formel et apprennent directement les associations entre les variables d'entrée et de sortie à partir des données.
J'ai réalisé que l'ensachage / RF et le boosting sont également en quelque sorte paramétriques: par exemple, ntree , mtry en RF, taux d'apprentissage , fraction de sac , complexité des arbres en gradient stochastique Les arbres boostés sont tous des paramètres de réglage . Nous estimons également ces paramètres à partir des données, car nous utilisons les données pour trouver les valeurs optimales de ces paramètres.
Alors quelle est la différence? Les RF et les arbres boostés sont-ils des modèles paramétriques?