Ma compréhension est que même en suivant les procédures appropriées de validation croisée et de sélection de modèle, un sur-ajustement se produira si l'on recherche un modèle assez dur , à moins d'imposer des restrictions sur la complexité du modèle, point final. De plus, il arrive souvent que les gens essaient de tirer des pénalités de la complexité du modèle à partir des données, ce qui compromet la protection qu'ils peuvent fournir.
Ma question est la suivante: quelle est la vérité de la déclaration ci-dessus?
J'entends souvent des praticiens du ML dire: " Dans mon entreprise / laboratoire, nous essayons toujours tous les modèles disponibles (par exemple dans des bibliothèques comme caret ou scikit-learn ) pour voir lequel fonctionne le mieux ". Je soutiens souvent que cette approche peut facilement s'adapter, même s'ils sont sérieux au sujet de la validation croisée et conserver les ensembles d'exclusion comme ils le souhaitent. De plus, plus ils recherchent, plus ils sont susceptibles de s'habiller. En d'autres termes, la sur-optimisation est un vrai problème et aucune heuristique ne peut vous aider à lutter systématiquement contre elle. Ai-je tort de penser de cette façon?