La similitude est plus que superficielle.
Le "compromis biais-variance" peut être interprété comme le théorème de Pythagore appliqué à deux vecteurs euclidiens perpendiculaires: la longueur de l'un est l'écart-type et la longueur de l'autre est le biais. La longueur de l'hypoténuse est l'erreur quadratique moyenne racine.
Une relation fondamentale
Comme point de départ, considérons ce calcul révélateur, valable pour toute variable aléatoire avec un second moment fini et tout nombre réel a . Le second moment étant fini, X a une moyenne finie μ = E ( X ) pour laquelle E ( X - μ ) = 0 , d'oùXaXμ=E(X)E(X−μ)=0
E((X−a)2)=E((X−μ+μ−a)2)=E((X−μ)2)+2E(X−μ)(μ−a)+(μ−a)2=Var(X)+(μ−a)2.(1)
Cela montre comment l'écart quadratique moyenne entre et une valeur « de référence » a varie avec un : il est une fonction quadratique d' un avec un minimum à μ , où l'écart quadratique moyenne est la variance de X .XaaaμX
Le lien avec les estimateurs et le biais
Tout estimateur θ est une variable aléatoire parce que (par définition) est une fonction (mesurable) de variables aléatoires. Le laisser jouer le rôle de X dans le précédent, et de laisser la grandeur estimée (la chose θ est censé estimation) soit θ , nous avonsθ^Xθ^θ
MSE(θ^)=E((θ^−θ)2)=Var(θ^)+(E(θ^)−θ)2.
Revenons à maintenant que nous avons vu comment l'énoncé sur le biais + la variance pour un estimateur est littéralement un cas de ( 1 ) . La question cherche «des analogies mathématiques avec des objets mathématiques». Nous pouvons faire plus que cela en montrant que des variables aléatoires intégrables au carré peuvent naturellement être transformées en un espace euclidien.(1)(1)
Contexte mathématique
De façon très générale, une variable aléatoire est une fonction à valeur réelle (mesurable) sur un espace de probabilité . L'ensemble de ces fonctions qui sont carré intégrable, qui est souvent écrit L 2 ( Ω ) (avec la structure de probabilité donnée comprise), est presque un espace de Hilbert. Pour en faire un, nous devons confondre deux variables aléatoires X et Y qui ne diffèrent pas vraiment en termes d'intégration: c'est-à-dire que X et Y sont équivalents chaque fois(Ω,S,P)L2(Ω)XYXY
E(|X−Y|2)=∫Ω|X(ω)−Y(ω)|2dP(ω)=0.
Il est facile de vérifier que cela est une véritable relation d'équivalence: le plus important, quand est équivalent à Y et Y est équivalent à Z , alors nécessairement X sera équivalent à Z . Nous pouvons donc partitionner toutes les variables aléatoires intégrables au carré en classes d'équivalence. Ces classes forment l'ensemble L 2 ( Ω ) . De plus, L 2 hérite de la structure d' espace vectoriel de L 2 définie par l'addition point par point de valeurs et la multiplication scalaire point par point. Sur cet espace vectoriel, la fonctionXYYZXZL2(Ω)L2L2
X→(∫Ω|X(ω)|2dP(ω))1/2=E(|X|2)−−−−−−√
est une norme , souvent écrite . Cette norme fait de L 2 ( Ω ) un espace de Hilbert. Considérez un espace de Hilbert H comme un «espace euclidien de dimension infinie». Tout sous-espace de dimension finie V ⊂ H hérite de la norme de H et V , avec cette norme, est un espace euclidien: on peut y faire de la géométrie euclidienne.||X||2L2(Ω)HV⊂HHV
Enfin, nous avons besoin d'un fait particulier aux espaces de probabilité (plutôt qu'aux espaces de mesure généraux): parce que est une probabilité, elle est bornée (par 1 ), d'où les fonctions constantes ω → a (pour tout nombre réel fixe a ) sont variables aléatoires carrées intégrables avec des normes finies.P1ω→aa
Une interprétation géométrique
Considérons toute variable aléatoire intégrable au carré , considérée comme représentative de sa classe d'équivalence dans L 2 ( Ω ) . Il a une moyenne μ = E ( X ) , qui (comme on peut le vérifier) ne dépend que de la classe d'équivalence de X . Soit 1 : ω → 1 la classe de la variable aléatoire constante.XL2(Ω)μ=E(X)X1:ω→1
et 1 génèrent un sous-espace euclidien V ⊂ L 2 ( Ω ) dont la dimension est au plus 2 . Dans ce sous-espace, | | X | | 2 2 = E ( X 2 ) est la longueur au carré de X et | | uneX1V⊂L2(Ω)2||X||22=E(X2)X est la longueur au carré de la variable aléatoire constante ω → a . Il est fondamental que X - μ 1 soit perpendiculaire à 1 . (Une définition de μ est que c'est le nombre unique pour lequel c'est le cas.) La relation ( 1 ) peut être écrite||a1||22=a2ω→aX−μ11μ(1)
||X−a1||22=||X−μ1||22+||(a−μ)1||22.
Il s'agit en effet précisément du théorème de Pythagore, essentiellement sous la même forme connue il y a 2500 ans. L'objet est l'hypoténuse d'un triangle rectangle avec les jambes X - μ 1 et ( a - μ ) 1 .
X−a1=(X−μ1)−(a−μ)1
X−μ1(a−μ)1
Si vous souhaitez des analogies mathématiques, vous pouvez utiliser tout ce qui peut être exprimé en termes d'hypoténuse d'un triangle rectangle dans un espace euclidien. L'hypoténuse représentera «l'erreur» et les jambes représenteront le biais et les écarts par rapport à la moyenne.