Quand ne pas utiliser la validation croisée?

En lisant le site, la plupart des réponses suggèrent que la validation croisée devrait être effectuée dans les algorithmes d'apprentissage automatique. Cependant, alors que je lisais le livre "Understanding Machine Learning", j'ai vu qu'il y avait un exercice selon lequel il vaut parfois mieux ne pas utiliser la validation croisée. Je suis vraiment confus. Quand l'algorithme de formation sur l'ensemble des données est meilleur que la validation croisée? Cela se produit-il dans de vrais ensembles de données?

Soit k classes d'hypothèses. Supposons que l'on vous donne des exemples de formation iid et que vous souhaitez apprendre la classe . Considérez deux approches alternatives: $H_1,...,H_k$ $m$ $H=\cup^k_{i=1}H_i$

Apprenez sur les exemples en utilisant la règle ERM $H$ $m$

Divisez les m exemples en un ensemble d'apprentissage de taille et un ensemble de validation de taille , pour certains . Ensuite, appliquez l'approche de la sélection du modèle à l'aide de la validation. Autrement dit, entraînez d'abord chaque classe sur les exemples d'apprentissage à l'aide de la règle ERM par rapport à , et laissez être les hypothèses résultantes . Ensuite, appliquez la règle ERM en ce qui concerne la classe finie { } sur les exemples de validation . $(1−\alpha)m$ $\alpha m$ $\alpha\in(0,1)$ $H_i$ $(1−\alpha)m$ $H_i$ $\hat{h}_1,\ldots,\hat{h}_k$ $\hat{h}_1,\ldots,\hat{h}_k$ $\alpha m$

Décrivez des scénarios dans lesquels la première méthode est meilleure que la seconde et vice versa.

Image du quastion .

machine-learning self-study cross-validation

— SMA.D
source

C'est un exercice intéressant, mais je ne suis pas d'accord avec l'étiquette. Je pense que la validation croisée fait parfaitement son travail ici. En tant que tangentiel, il serait vraiment préférable de taper l'exercice et de le citer, plutôt que de joindre une image. L'image est inaccessible aux utilisateurs malvoyants.

— Matthew Drury

Un inconvénient possible de l'utilisation de la validation croisée pourrait être un ajustement excessif (comme dans le cas de l'omission d'une validation croisée). Essentiellement, en utilisant des techniques de validation croisée, nous ajustons les paramètres du modèle sur l'ensemble de données de validation (et non sur l'ensemble de données de test). Mais parfois, ce réglage peut aller un peu trop, ce qui peut entraîner un sur-ajustement possible lorsque le classificateur est testé sur l'ensemble de test.

— Upendra Pratap Singh

Que signifie "parité" ici?

— shadowtalker

@shadowtalker Je pense que cela signifie la sommation modulo 2.

— SMA.D

Faites-vous la différence entre la validation croisée (répétée) et l'amorçage?

— usεr11852

Messages à emporter:

l'exercice devrait vous apprendre qu'il est parfois (en fonction de votre domaine: souvent, voire presque toujours) préférable de ne pas faire d'optimisation / réglage / sélection de modèle basé sur les données.
Il existe également des situations où la validation croisée n'est pas le meilleur choix parmi les différentes options de validation , mais ces considérations ne sont pas pertinentes dans le contexte de votre exercice ici.
Et ne pas valider (vérifier, tester) votre modèle n'est jamais un bon choix.

Malheureusement, le texte que vous citez change deux choses entre l'approche 1 et 2:

L'approche 2 effectue une validation croisée et une sélection / réglage / optimisation du modèle basé sur les données
L'approche 1 n'utilise ni la validation croisée, ni la sélection / réglage / optimisation du modèle basé sur les données.
La validation croisée de l'approche 3 sans sélection / réglage / optimisation du modèle basé sur les données est parfaitement réalisable (et à mon humble avis, cela permettrait de mieux comprendre) dans le contexte examiné ici
Approche 4, pas de validation croisée mais la sélection / réglage / optimisation du modèle basé sur les données est également possible, mais plus complexe à construire.

À mon humble avis, la validation croisée et l'optimisation basée sur les données sont deux décisions totalement différentes (et largement indépendantes) dans la mise en place de votre stratégie de modélisation. La seule connexion est que vous pouvez utiliser des estimations de validation croisée comme fonction cible pour votre optimisation. Mais il existe d'autres fonctionnalités cibles prêtes à être utilisées, et il existe d'autres utilisations d'estimations de validation croisée (surtout, vous pouvez les utiliser pour la vérification de votre modèle, alias validation ou test)

Malheureusement, la terminologie d'apprentissage automatique est à mon humble avis actuellement un gâchis qui suggère de fausses connexions / causes / dépendances ici.

Lorsque vous recherchez l'approche 3 (validation croisée non pas pour l'optimisation mais pour mesurer les performances du modèle), vous trouverez que la validation croisée «décision» par rapport à la formation sur l'ensemble des données est une fausse dichotomie dans ce contexte: lors de l'utilisation de la validation croisée pour mesurer les performances du classificateur, le chiffre de validation croisée du mérite est utilisé comme estimation pour un modèle formé sur l'ensemble des données. C'est-à-dire que l'approche 3 comprend l'approche 1.
Maintenant, regardons la 2ème décision: l'optimisation du modèle basé sur les données ou non. C'est à mon humble avis le point crucial ici. Et oui, il existe des situations réelles où il est préférable de ne pas optimiser les modèles basés sur les données. L'optimisation des modèles basée sur les données a un coût. Vous pouvez y penser de cette façon: les informations de votre ensemble de données sont utilisées pour estimer non seulement le $p$ paramètres / coefficients du modèle, mais ce que l'optimisation fait est d'estimer d'autres paramètres, les soi-disant hyperparamètres. Si vous décrivez le processus d'ajustement et d'optimisation / réglage du modèle comme une recherche des paramètres du modèle, cette optimisation hyperparamétrique signifie qu'un espace de recherche beaucoup plus grand est pris en compte. En d'autres termes, dans l'approche 1 (et 3), vous restreignez l'espace de recherche en spécifiant ces hyperparamètres. Votre ensemble de données du monde réel peut être suffisamment grand (contenir suffisamment d'informations) pour permettre un ajustement dans cet espace de recherche restreint, mais pas assez grand pour fixer suffisamment bien tous les paramètres dans l'espace de recherche plus large des approches 2 (et 4).

En fait, dans mon domaine, je dois très souvent gérer des ensembles de données beaucoup trop petits pour permettre une réflexion sur l'optimisation basée sur les données. Alors, que dois-je faire à la place: j'utilise mes connaissances de domaine sur les données et les processus de génération de données pour décider quel modèle correspond bien à la nature physique des données et de l'application. Et à l'intérieur de ceux-ci, je dois encore restreindre la complexité de mon modèle.

— cbeleites mécontents de SX
source

Bonne réponse. J'espérais en quelque sorte que vous contribueriez à ce fil. Évident +1

— usεr11852

Merci pour votre réponse informative et utile. Ce que j'ai appris de votre réponse, c'est que nous pouvons choisir l'approche 2 lorsque nous avons de petits ensembles de données non pas à cause de la validation mais à cause de la sélection du modèle. Ai-je raison? L'utilisation de la sélection de modèles pour de petits ensembles de données entraîne-t-elle en quelque sorte un sous-ajustement?

— SMA.D

Une autre question est que dans l'exercice, la taille de la classe d'hypothèses est la même pour les approches 1 et 2. Comment l'espace de recherche est-il plus grand dans ce cas pour l'approche 2?

— SMA.D

Eh bien, s'il y a un choix en 2 et non en 1, alors l'espace de recherche en 2 est plus grand. Si l'espace de recherche en 2 n'est pas plus grand, alors il n'y a vraiment rien à sélectionner dans l'approche 2. Ma réponse et mon interprétation de ce que signifie l'approche 2 est déclenchée par le terme "sélection de modèle utilisant la validation". Si le contexte est toujours celui de l'exercice "quand la validation croisée échoue" avant celui en question ici, alors le livre peut signifier ce que j'ai appelé l'approche 3 ci-dessus, c'est-à-dire qu'aucune sélection de modèle n'est impliquée. Mais dans ce cas, la sélection du modèle de mots ne devrait vraiment pas être là. Je ne peux pas juger de la probabilité que cela ..

— cbeleites mécontents de SX

... c'est que je ne sais pas ce que dit le livre sur la sélection des modèles, ni quelle est leur règle ERM (dans mon vocabulaire, ERM s'étend à la gestion des risques d'entreprise ...). Cependant, ma réponse est valable quel que soit l'algorithme de modélisation.

— cbeleites mécontents de SX