Existe-t-il une représentation graphique du compromis biais-variance dans la régression linéaire?


18

Je souffre d'une panne d'électricité. On m'a présenté l'image suivante pour présenter le compromis biais-variance dans le contexte de la régression linéaire:

Modèle polynomial pour les données, cas simple et complexe

Je peux voir qu'aucun des deux modèles ne correspond bien - le "simple" n'apprécie pas la complexité de la relation XY et le "complexe" est juste trop adapté, apprenant essentiellement les données d'entraînement par cœur. Cependant, je ne vois absolument pas le biais et la variance de ces deux images. Quelqu'un pourrait-il me le montrer?

PS: La réponse à l' explication intuitive du compromis biais-variance? ne m'a pas vraiment aidé, je serais heureux si quelqu'un pouvait fournir une approche différente basée sur l'image ci-dessus.

Réponses:


11

Le compromis de la variance du biais est basé sur la ventilation de l'erreur quadratique moyenne:

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

Une façon de voir le commerce biais-variance est de savoir quelles propriétés de l'ensemble de données sont utilisées dans l'ajustement du modèle. Pour le modèle simple, si nous supposons que la régression OLS a été utilisée pour ajuster la ligne droite, alors seulement 4 nombres sont utilisés pour ajuster la ligne:

  1. L'échantillon de covariance entre x et y
  2. La variance d'échantillon de x
  3. La moyenne de l'échantillon de x
  4. La moyenne de l'échantillon de y

Ainsi, tout graphique qui mène aux mêmes 4 chiffres ci-dessus mènera exactement à la même ligne ajustée (10 points, 100 points, 100000000 points). Donc, dans un sens, il est insensible à l'échantillon particulier observé. Cela signifie qu'il sera "biaisé" car il ignore effectivement une partie des données. Si cette partie ignorée des données était importante, les prédictions seront systématiquement erronées. Vous le verrez si vous comparez la ligne ajustée en utilisant toutes les données aux lignes ajustées obtenues en supprimant un point de données. Ils auront tendance à être assez stables.

Maintenant, le deuxième modèle utilise tous les fragments de données qu'il peut obtenir et ajuste les données aussi près que possible. Par conséquent, la position exacte de chaque point de données est importante et vous ne pouvez donc pas déplacer les données d'entraînement sans changer le modèle ajusté comme vous le pouvez pour OLS. Ainsi, le modèle est très sensible à l'ensemble d'entraînement que vous avez. Le modèle ajusté sera très différent si vous effectuez le même tracé de points de données drop-one.


Le biais et la variance de l'estimation de paramètre de modèle θ ou la valeur de sortie prédite y ? Certaines personnes me disent que les termes biais et variance ne peuvent être utilisés que pour décrire le paramètre du modèle θ , pas les données x , y , n'est-ce pas? θ^y^θx,y
avocat

Je ne pense pas que ce soit vrai, je pense que vous parlez de prédiction ( y ) vs estimation ( θ ). Les deux ont les notions de biais et de variance - par exemple, vous avez le "BLEU" pour un paramètre de régression et le "BLUP" pour prédire un futur point de données. y^θ^
probabilités

Pour l'estimation paramètre θ , son biais est b i un s ( θ ) = θ - E [ θ ] , mais θ nous est inconnu, non? De plus, étant donné l'ensemble de données, nous n'avons aucune idée de ce à quoi devrait ressembler le vrai modèle, par exemple, le vrai modèle derrière les données est f ( e x pour ajuster les données, alors voici le paradoxe: les vrais paramètres sont ( a , b , c ) , qui sont l'objectif que nous devrions essayer d'estimer, mais nous nous retrouvons avec les estimations deθ^bias(θ^)=θE[θ^]θ , mais nous choisissons un modèle de régression linéaire h ( x ) = d +f(x)=a+bx+cx2h(x)=d+ex(a,b,c) , puis calculer ou analyser les b i a s ( d ) et b i a s ( e ) ? (d,e)bias(d)bias(e)
avocat

@loganecolss - ce n'est pas un paradoxe car la notion de biais n'existe que "localement" - c'est-à-dire par rapport à un modèle statistique donné. Le «paradoxe» existe pour une personne qui: 1) connaît le «vrai modèle», et 2) décide de ne pas l'utiliser. Cette personne est un idiot dans mon livre. Si vous ne connaissez pas le "vrai modèle", alors il n'y a pas de problème - à moins que vous n'ayez trouvé un bon modèle et décidé de ne pas l'utiliser ...
probabiliste

1
f(x,z1,z2,,zK)ziK
probabilogique

5

Pour résumer avec ce que je pense savoir de manière non mathématique:

  • biais - votre prédiction va être incorrecte lorsque vous utilisez le modèle simple et cela se produira sur tout ensemble de données sur lequel vous utilisez le modèle. On s'attend à ce que votre prédiction soit fausse
  • variance - si vous utilisez le modèle complexe, vous obtiendrez des prédictions très différentes en fonction du jeu de données que vous utilisez

Cette page a une assez bonne explication avec des diagrammes similaires à ce que vous avez publié. (J'ai cependant sauté la partie supérieure, il suffit de lire la partie avec les diagrammes) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (le survol affiche un échantillon différent au cas où vous ne l'auriez pas remarqué!)


C'est une page intéressante et de bonnes illustrations, mais je les trouve plus déroutantes qu'utiles car (a) le "biais" et la "variance" discutés dans le contexte de la régression ne semblent pas être le biais et la variance tels que définis au début de cela page et (b) il n'est pas du tout clair que les déclarations faites (sur la façon dont le biais et la variance changent avec le nombre de paramètres) sont correctes.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.