Le rasoir d'Occam obsolète?

J'ai vu les livres de Vapnik sur l'apprentissage statistique ... J'ai lu les premiers chapitres. Quoi qu'il en soit, ce qui m'a le plus surpris, c'est qu'il pensait que le rasoir de l'Occam était obsolète.

Je pensais que c'était lié à la situation dans laquelle le fait de supposer une dimension supérieure améliore considérablement l'ajustement.

Suis-je bien compris? Est-il exact que le rasoir d'Occam ne peut plus avoir raison, comme l'a dit Vapnik?

Y a-t-il un argument selon lequel le rasoir d'Occam ne devrait pas être considéré comme celui par défaut?

Les phrases exactes proviennent de la préface de la deuxième édition de La nature de l'apprentissage statistique , qui sont:

Les années écoulées depuis la première édition du livre ont également changé la philosophie générale de notre compréhension de la nature du problème d'induction. Après de nombreuses expériences réussies avec SVM, les chercheurs sont devenus plus déterminés à critiquer la philosophie classique de la généralisation basée sur le principe du rasoir d'Occam. "

J'aimerais que quelqu'un puisse développer la critique du rasoir d'Occam.

machine-learning svm

— KH Kim
source

Ce n'est peut-être pas lié. En savoir plus sur la simplicité n'implique pas la précision, dans Quelques informations utiles à savoir sur l'apprentissage automatique par Domingos.

— Simone

Cela pourrait aider si vous pouviez donner une référence de page, donc le commentaire de Vapnik peut être vu dans son contexte.

— Dikran Marsupial

J'ai ajouté l'extrait de la deuxième édition de Nature of Statiatical Learning à la question.

— KH Kim

Cela dépend de ce que vous considérez comme le "rasoir d'Occam"; la formulation originale est un mumbo-jumbo théologique peu clair, donc il s'est épanoui en un tas d'interprétations (souvent incompatibles).

Vapnik critique la version ultranaive en disant moins qu'un modèle avec un nombre inférieur de paramètres ajustés est meilleur car trop de paramètres impliquent un sur-ajustement, c'est-à-dire quelque chose dans la mélodie du paradoxe de Runge .
C'est bien sûr faux dans le machine learning car la "gourmandise de l'ajustement" n'y est pas contrainte par les paramètres numériques mais (via une heuristique) par la précision du modèle sur les données futures.

Mais cela signifie-t-il que la formation au ML introduit la pluralité sans nécessité? Je dirais personnellement non, principalement en raison de la deuxième partie - les modèles ML sont généralement meilleurs que les régressions classiques rasées à la main, donc cette complexité supplémentaire est payante. Même si elle peut être réduite par un humain à une théorie plus simple, cela vient presque toujours au prix d'hypothèses supplémentaires, donc ce n'est pas une comparaison équitable.