J'ai analysé un ensemble de données d'environ 400k enregistrements et 9 variables La variable dépendante est binaire. J'ai ajusté une régression logistique, un arbre de régression, une forêt aléatoire et un arbre boosté par gradient. Tous donnent des valeurs d'ajustement virtuellement identiques lorsque je les valide sur un autre ensemble de données.
Pourquoi cela est-il ainsi? Je suppose que c'est parce que mes observations sur le rapport variable sont si élevées. Si cela est correct, à quel rapport observation / variable les différents modèles commenceront-ils à donner des résultats différents?