La réponse est non , car le biais et la variance sont des attributs des paramètres du modèle, plutôt que les données utilisées pour les estimer. Il y a une exception partielle à cette affirmation qui concerne le biais et la variance variant (ha!) À travers l'espace de prédiction; plus sur cela ci-dessous. Notez que cela n'a absolument rien à voir avec la connaissance d'une fonction "vraie" reliant les prédicteurs et les variables de réponse.
Considérons l'estimation de dans une régression linéaire, , où est une matrice de prédicteurs, est un vecteur d'estimations de paramètres, et est un vecteur de réponses. Supposons pour les besoins de l'argument que nous avons une population infinie de données à partir desquelles puiser (ce n'est pas complètement ridicule, en passant - si nous enregistrions activement les données d'un processus physique, nous pourrions enregistrer des données de prédicteur et de réponse à un rythme rapide , satisfaisant ainsi pratiquement à cette hypothèse). Nous tirons donc observations, chacune consistant en une seule valeur de réponse et une valeur pour chacun desββ^=(XTX)−1XTYXN×Pβ^P×1YN×1NPPrédicteursNous calculons ensuite notre estimation de et enregistrons les valeurs. Reprenons alors tout ce processus et répétons-le fois, en faisant à chaque fois tirages indépendants de la population. Nous accumulerons estimations de sur lesquelles nous pouvons calculer la variance de chaque élément du vecteur paramètre. Il est à noter que la variance de ces estimations de paramètres est inversement proportionnelle à et proportionnelle à , en supposant l'orthogonalité des prédicteurs.β^NiterNNiterβ^NP
Le biais de chaque paramètre peut être estimé de manière similaire. Bien que nous n'ayons peut-être pas accès à la "vraie" fonction, supposons que nous pouvons effectuer un nombre arbitrairement élevé de tirages à partir de la population afin de calculer , qui servira de proxy pour la "vraie" valeur du paramètre . Nous supposerons qu'il s'agit d'une estimation non biaisée (moindres carrés ordinaires) et que le nombre d'observations utilisées était suffisamment important pour que la variance de cette estimation soit négligeable. Pour chacun des paramètres , nous calculons , où varie de à . Nous prenons la moyenne de ces différences comme une estimation du biais dans le paramètre correspondant.P β bs estj - β jj1Niterβ^bestPβ^bestj−β^jj1Niter
Il existe des moyens correspondants de relier le biais et la variance aux données elles-mêmes, mais elles sont un peu plus compliquées. Comme vous pouvez le voir, le biais et la variance peuvent être estimés pour les modèles linéaires, mais vous aurez besoin de beaucoup de données de maintien. Un problème plus insidieux est le fait qu'une fois que vous commencez à travailler avec un ensemble de données fixe, vos analyses seront polluées par votre variance personnelle , en ce que vous aurez déjà commencé à errer dans le jardin des chemins de bifurcation et il n'y a aucun moyen de savoir comment cela répliquerait hors échantillon (sauf si vous venez de créer un modèle unique et que vous avez exécuté cette analyse et que vous vous êtes engagé à le laisser seul après).
En ce qui concerne la question des points de données eux-mêmes, la réponse la plus correcte (et triviale) est que s'il y a une différence entre etY Y - YYY^, vous avez besoin d'un modèle plus complexe (en supposant que vous puissiez identifier correctement tous les prédicteurs pertinents; vous ne pouvez pas). Sans entrer dans un traité ennuyeux sur la nature philosophique de «l'erreur», l'essentiel est qu'il s'est passé quelque chose qui a fait que votre modèle a raté sa cible. Le problème est que l'ajout de complexité augmente la variance, ce qui lui fera probablement manquer la marque sur d'autres points de données. Par conséquent, s'inquiéter de l'attribution des erreurs au niveau des points de données individuels ne sera probablement pas une entreprise fructueuse. L'exception (mentionnée dans le premier paragraphe) provient du fait que le biais et la variance sont en fait des fonctions des prédicteurs eux-mêmes, de sorte que vous pouvez avoir un biais important dans une partie de l'espace des prédicteurs et un biais plus petit dans une autre (idem pour la variance).Y−Y^plusieurs fois (où etßY^=Xβ^β^ YX