Modèles flexibles et rigides en apprentissage automatique


10

Je suis tombé sur une question simple sur la comparaison des modèles flexibles (c'est-à-dire des splines) et des modèles inflexibles (par exemple la régression linéaire) dans différents scénarios. La question est:

En général, nous attendons-nous à ce que les performances d'une méthode d'apprentissage statistique flexible soient meilleures ou moins bonnes qu'une méthode inflexible lorsque:

  1. Le nombre de prédicteurs est extrêmement grand et le nombre d'observations est petit? pn
  2. La variance des termes d'erreur, c'est-à-dire σ2=Var(e) , est extrêmement élevée?

Je pense que pour (1), quand n est petit, les modèles inflexibles sont meilleurs (pas sûr). Pour (2), je ne sais pas quel modèle est (relativement) meilleur.


L'erreur de généralisation est loin d'être anodine. Malheureusement, les règles empiriques ne sont pas très utiles à cet égard.
Marc Claesen

8
On dirait que c'est de James, Witten, Hastie, Introduction à l'apprentissage statistique de Tibshirani
Noel Evans

1. Une méthode flexible satisferait le petit nombre d'observations. 2. Une méthode flexible s'adapte au bruit en termes d'erreur et augmente la variance.
Zanark

Réponses:


3

Dans ces 2 situations, les performances comparatives flexibles vs inflexibles dépendent également:

  • est la vraie relation y = f (x) proche de linéaire ou très non linéaire;
  • ajustez-vous / contraignez le degré de flexibilité du modèle "flexible" lors de son ajustement.

Si la relation est proche de la linéarité et que vous ne contraignez pas la flexibilité, le modèle linéaire devrait donner une meilleure erreur de test dans les deux cas car le modèle flexible est susceptible de s'adapter dans les deux cas.

Vous pouvez le voir comme ça:

  • Dans les deux cas, les données ne contiennent pas suffisamment d'informations sur la vraie relation (dans le premier cas, la relation est de grande dimension et vous n'avez pas assez de données, dans le second cas, elle est corrompue par le bruit) mais
    • le modèle linéaire apporte des informations préalables externes sur la relation vraie (contraindre la classe des relations ajustées aux relations linéaires)
    • cette information préalable s'avère juste (la vraie relation est proche du linéaire).
  • Bien que le modèle flexible ne contienne aucune information préalable (il peut s'adapter à tout), il s'adapte donc au bruit.

Si toutefois la vraie relation est très non linéaire, il est difficile de dire qui gagnera (les deux perdront :)).

Si vous ajustez / limitez le degré de flexibilité et le faites de la bonne manière (par exemple par validation croisée), le modèle flexible devrait gagner dans tous les cas.


4

Bien sûr, cela dépend des données sous-jacentes que vous devez toujours explorer pour découvrir certaines de ses caractéristiques avant d'essayer d'adapter un modèle, mais ce que j'ai appris comme règles générales sont:

  • Un modèle flexible vous permet de tirer pleinement parti d'une grande taille d'échantillon (grand n).
  • Un modèle flexible sera nécessaire pour trouver l'effet non linéaire.
  • Un modèle flexible vous amènera à intégrer trop de bruit dans le problème (lorsque la variance des termes d'erreur est élevée).

1

Eh bien, pour la deuxième partie, je pense qu'un modèle plus flexible tentera de s'adapter au modèle dur et que les données de formation contiennent un bruit élevé, donc le modèle flexible tentera également d'apprendre ce bruit et entraînera plus d'erreur de test. Je connais la source de cette question car je lis aussi le même livre :)


1

Pour la première partie, je m'attendrais à ce que le modèle inflexible fonctionne mieux avec un nombre limité d'observations. Lorsque n est très petit, les deux modèles (qu'il soit flexible ou rigide) ne fourniraient pas une prédiction suffisamment bonne. Cependant, le modèle flexible aurait tendance à surajuster les données et à donner de meilleurs résultats lorsqu'il s'agit d'un nouveau jeu de tests.

Idéalement, je collecterais plus d'observations pour améliorer l'ajustement, mais si ce n'est pas le cas, j'utiliserais le modèle inflexible, essayant de minimiser une erreur de test avec un nouveau jeu de test.


0

Pour la deuxième question, je pense que la réponse est que les deux fonctionneront également (en supposant que ces erreurs sont irréductibles, c'est-à-dire cette erreur). Plus d'informations sont fournies dans Introduction à l'apprentissage statistique à la page 18 (sujet: Pourquoi estimer ) où l'auteur explique en disantf

La précision de comme prédiction pour dépend de deux quantités, que nous appellerons l' erreur réductible et l' erreur irréductible . En général, ne sera pas une estimation parfaite pour , et cette imprécision introduira une erreur. Cette erreur est réductible car nous pouvons potentiellement améliorer la précision de en utilisant la technique d'apprentissage statistique la plus appropriée pour estimer . Cependant, même s'il était possible de former une estimation parfaite pour , de sorte que notre réponse estimée prenait la formeYYf^ff^f^fY^=f(X), notre prédiction contiendrait encore une erreur! En effet est également une fonction de , qui, par définition, ne peut être prédite en utilisant . Par conséquent, la variabilité associée à affecte également la précision de nos prévisions. C'est ce qu'on appelle l' erreur irréductible , car peu importe la façon dont nous estimons , nous ne pouvons pas réduire l'erreur introduite par . YϵXϵfϵ


Je ne comprends pas ça.
Michael R. Chernick

0

Pour chacune des parties (a) à (d), indiquez si i. ou ii. est correct et expliquez votre réponse. En général, nous attendons-nous à ce que les performances d'une méthode d'apprentissage statistique flexible soient meilleures ou moins bonnes qu'une méthode inflexible lorsque:

La taille de l'échantillon n est extrêmement grande et le nombre de prédicteurs p est petit?

Mieux. Une méthode flexible s'adaptera plus étroitement aux données et, avec la grande taille de l'échantillon, fonctionnerait mieux qu'une approche inflexible.

Le nombre de prédicteurs p est extrêmement grand et le nombre d'observations n est petit?

Pire. Une méthode flexible permettrait de s'adapter au petit nombre d'observations.

La relation entre les prédicteurs et la réponse est fortement non linéaire?

Mieux. Avec plus de degrés de liberté, une méthode flexible conviendrait mieux qu'une méthode rigide.

La variance des termes d'erreur, c'est-à-dire σ2 = Var (ε), est extrêmement élevée?

Pire. Une méthode flexible s'adapterait au bruit en termes d'erreur et augmenterait la variance.

Pris d' ici .

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.