En examinant la « modélisation prédictive appliquée », un réviseur déclare :
Une critique que j'ai de la pédagogie de l'apprentissage statistique (SL) est l'absence de considérations de performance de calcul dans l'évaluation des différentes techniques de modélisation. Avec ses efforts sur le bootstrap et la validation croisée pour ajuster / tester les modèles, SL est assez gourmand en calcul. Ajoutez à cela le rééchantillonnage intégré à des techniques telles que l'ensachage et le renforcement, et vous avez le spectre de l'enfer du calcul pour l'apprentissage supervisé de grands ensembles de données. En fait, les contraintes de mémoire de R imposent des limites assez sévères à la taille des modèles qui peuvent être ajustés par des méthodes très performantes comme les forêts aléatoires. Bien que SL fasse un bon travail d'étalonnage des performances du modèle par rapport à de petits ensembles de données, il serait certainement agréable de comprendre les performances par rapport au coût de calcul pour les données plus volumineuses.
Quelles sont les contraintes de mémoire de R et imposent-elles des limites sévères à la taille des modèles qui peuvent être ajustés par des méthodes les plus performantes comme les forêts aléatoires ?