Un peu tard pour la fête mais je pense que cette question pourrait servir de réponse avec des exemples concrets.
J'écrirai un résumé de cet excellent article: biais-variance-compromis , qui m'a aidé à comprendre le sujet.
L'erreur de prédiction pour tout algorithme d'apprentissage automatique peut être décomposée en trois parties:
- Erreur de biais
- Erreur d'écart
- Erreur irréductible
Erreur irréductible
Comme son nom l'indique, est un composant d'erreur que nous ne pouvons pas corriger, quel que soit l'algorithme et sa sélection de paramètres. L'erreur irréductible est due à des complexités qui ne sont tout simplement pas capturées dans l'ensemble d'entraînement. Il peut s'agir d'attributs que nous n'avons pas dans un ensemble d'apprentissage, mais ils affectent le mappage vers le résultat indépendamment.
Erreur de biais
L'erreur de biais est due à nos hypothèses sur la fonction cible. Plus nous faisons d'hypothèses (restrictions) sur les fonctions cibles, plus nous introduisons de biais. Les modèles avec un biais élevé sont moins flexibles car nous avons imposé plus de règles aux fonctions cibles.
Erreur de variance
L'erreur de variance est la variabilité de la forme d'une fonction cible par rapport à différents ensembles d'apprentissage. Les modèles avec une petite erreur de variance ne changeront pas beaucoup si vous remplacez quelques échantillons dans l'ensemble d'apprentissage. Les modèles avec une variance élevée peuvent être affectés même avec de petits changements dans l'ensemble de formation.
Envisagez une régression linéaire simple:
Y=b0+b1x
Évidemment, il s'agit d'une définition assez restrictive d'une fonction cible et donc ce modèle a un biais élevé.
D'un autre côté, en raison de la faible variance si vous modifiez quelques échantillons de données, il est peu probable que cela entraîne des changements majeurs dans le mappage global effectué par la fonction cible. D'un autre côté, des algorithmes tels que k-voisins les plus proches ont une variance élevée et un biais faible. Il est facile d'imaginer comment différents échantillons peuvent affecter la surface de décision KNN.
Généralement, les algorithmes paramétriques ont un biais élevé et une faible variance, et vice versa.
L'un des défis de l'apprentissage automatique est de trouver le bon équilibre entre l'erreur de biais et l'erreur de variance.
Arbre de décision
Maintenant que nous avons ces définitions en place, il est également simple de voir que les arbres de décision sont des exemples de modèle à faible biais et à forte variance. L'arbre ne fait presque aucune hypothèse sur la fonction cible mais il est très sensible à la variance des données.
Il existe des algorithmes d'ensemble, tels que l'agrégation d'amorçage et la forêt aléatoire, qui visent à réduire la variance au faible coût du biais dans l'arbre de décision.