Intuition mathématique de l'équation de biais-variance

J'ai récemment posé une question à la recherche d'une interprétation / intuition mathématique derrière l'équation élémentaire reliant la moyenne et la variance de l'échantillon: $E[X^2] = Var(X) +(E[X])^2$ , géométrique ou autre.

Mais maintenant, je suis curieux de savoir l'équation de compromis biais-variance superficiellement similaire.

\begin{array}{rcl} MSE (\hat{θ}) = E [(\hat{θ} - θ)^{2}] & = & E [(\hat{θ} - E [\hat{θ}])^{2}] + (E [\hat{θ}] - θ)^{2} \\ = & Var (\hat{θ}) + Biais (\hat{θ}, θ)^{2} \end{array}

$\begin{eqnarray} \text{MSE}(\hat{\theta}) = E [(\hat{\theta}-\theta)^2 ] &=& E[(\hat{\theta} - E[\hat\theta])^2] + (E[\hat\theta] - \theta)^2\\ &=& \text{Var}(\hat\theta) + \text{Bias}(\hat\theta,\theta)^2 \\ \end{eqnarray}$ (formules deWikipedia)

Pour moi, il existe une similitude superficielle avec l'équation de compromis biais-variance pour la régression: trois termes avec des carrés et deux s'ajoutant à l'autre. Très pythagoricien. Existe-t-il une relation vectorielle similaire, y compris l'orthogonalité pour tous ces éléments? Ou existe-t-il une autre interprétation mathématique connexe qui s'applique?

Je cherche une analogie mathématique avec d'autres objets mathématiques qui pourraient faire la lumière. Je ne cherche pas l'analogie exactitude-précision qui est bien couverte ici. Mais s'il y a des analogies non techniques que les gens peuvent faire entre le compromis biais-variance et la relation moyenne-variance beaucoup plus basique, ce serait bien aussi.

variance bias

— Mitch
source

La similitude est plus que superficielle.

Le "compromis biais-variance" peut être interprété comme le théorème de Pythagore appliqué à deux vecteurs euclidiens perpendiculaires: la longueur de l'un est l'écart-type et la longueur de l'autre est le biais. La longueur de l'hypoténuse est l'erreur quadratique moyenne racine.

Une relation fondamentale

Comme point de départ, considérons ce calcul révélateur, valable pour toute variable aléatoire avec un second moment fini et tout nombre réel . Le second moment étant fini, a une moyenne finie pour laquelle , d'où $X$ $a$ $X$ $\mu=\mathbb{E}(X)$ $\mathbb{E}(X-\mu)=0$

\begin{matrix} (1) & \begin{aligned} E ((X - a)^{2}) & = E ((X - μ + μ - a)^{2}) \\ = E ((X - μ)^{2}) + 2 E (X - μ) (μ - a) + (μ - a)^{2} \\ = Var (X) + (μ - a)^{2} . \end{aligned} \end{matrix}

$\eqalign{ \mathbb{E}((X-a)^2) &= \mathbb{E}((X-\mu\,+\,\mu-a)^2) \\ &= \mathbb{E}((X-\mu)^2) + 2 \mathbb{E}(X-\mu)(\mu-a) + (\mu-a)^2 \\ &= \operatorname{Var}(X) + (\mu-a)^2.\tag{1} }$

Cela montre comment l'écart quadratique moyenne entre et une valeur « de référence » varie avec : il est une fonction quadratique d' avec un minimum à , où l'écart quadratique moyenne est la variance de . $X$ $a$ $a$ $a$ $\mu$ $X$

Le lien avec les estimateurs et le biais

Tout estimateur est une variable aléatoire parce que (par définition) est une fonction (mesurable) de variables aléatoires. Le laisser jouer le rôle de dans le précédent, et de laisser la grandeur estimée (la chose est censé estimation) soit , nous avons $\hat \theta$ $X$ $\hat\theta$ $\theta$

MSE (\hat{θ}) = E ((\hat{θ} - θ)^{2}) = Var (\hat{θ}) + (E (\hat{θ}) - θ)^{2} .

$\operatorname{MSE}(\hat\theta) = \mathbb{E}((\hat\theta-\theta)^2) = \operatorname{Var}(\hat\theta) + (\mathbb{E}(\hat\theta)-\theta)^2.$

Revenons à maintenant que nous avons vu comment l'énoncé sur le biais + la variance pour un estimateur est littéralement un cas de . La question cherche «des analogies mathématiques avec des objets mathématiques». Nous pouvons faire plus que cela en montrant que des variables aléatoires intégrables au carré peuvent naturellement être transformées en un espace euclidien. $(1)$ $(1)$

Contexte mathématique

De façon très générale, une variable aléatoire est une fonction à valeur réelle (mesurable) sur un espace de probabilité . L'ensemble de ces fonctions qui sont carré intégrable, qui est souvent écrit (avec la structure de probabilité donnée comprise), est presque un espace de Hilbert. Pour en faire un, nous devons confondre deux variables aléatoires et qui ne diffèrent pas vraiment en termes d'intégration: c'est-à-dire que et sont équivalents chaque fois $(\Omega, \mathfrak{S}, \mathbb{P})$ $\mathcal{L}^2(\Omega)$ $X$ $Y$ $X$ $Y$

E (| X - Y |^{2}) = \int_{Ω} | X (ω) - Y (ω) |^{2} d P (ω) = 0.

$\mathbb{E}(|X-Y|^2) = \int_\Omega |X(\omega)-Y(\omega)|^2 d\mathbb{P}(\omega) = 0.$

Il est facile de vérifier que cela est une véritable relation d'équivalence: le plus important, quand est équivalent à et est équivalent à , alors nécessairement sera équivalent à . Nous pouvons donc partitionner toutes les variables aléatoires intégrables au carré en classes d'équivalence. Ces classes forment l'ensemble . De plus, hérite de la structure d' espace vectoriel de définie par l'addition point par point de valeurs et la multiplication scalaire point par point. Sur cet espace vectoriel, la fonction $X$ $Y$ $Y$ $Z$ $X$ $Z$ $L^2(\Omega)$ $L^2$ $\mathcal{L}^2$

X \to {(\int_{Ω} | X (ω) |^{2} d P (ω))}^{1 / 2} = \sqrt{E (| X |^{2})}

$X \to \left(\int_\Omega |X(\omega)|^2 d\mathbb{P}(\omega)\right)^{1/2}=\sqrt{\mathbb{E}(|X|^2)}$

est une norme , souvent écrite . Cette norme fait de un espace de Hilbert. Considérez un espace de Hilbert comme un «espace euclidien de dimension infinie». Tout sous-espace de dimension finie hérite de la norme de et , avec cette norme, est un espace euclidien: on peut y faire de la géométrie euclidienne. $||X||_2$ $L^2(\Omega)$ $\mathcal{H}$ $V\subset \mathcal{H}$ $\mathcal{H}$ $V$

Enfin, nous avons besoin d'un fait particulier aux espaces de probabilité (plutôt qu'aux espaces de mesure généraux): parce que est une probabilité, elle est bornée (par ), d'où les fonctions constantes (pour tout nombre réel fixe ) sont variables aléatoires carrées intégrables avec des normes finies. $\mathbb{P}$ $1$ $\omega\to a$ $a$

Une interprétation géométrique

Considérons toute variable aléatoire intégrable au carré , considérée comme représentative de sa classe d'équivalence dans . Il a une moyenne , qui (comme on peut le vérifier) ne dépend que de la classe d'équivalence de . Soit la classe de la variable aléatoire constante. $X$ $L^2(\Omega)$ $\mu=\mathbb{E}(X)$ $X$ $\mathbf{1}:\omega\to 1$

et génèrent un sous-espace euclidien dont la dimension est au plus . Dans ce sous-espace, est la longueur au carré de et $X$ $\mathbf{1}$ $V\subset L^2(\Omega)$ $2$ $||X||_2^2 = \mathbb{E}(X^2)$ $X$ est la longueur au carré de la variable aléatoire constante . Il est fondamental que soit perpendiculaire à . (Une définition de est que c'est le nombre unique pour lequel c'est le cas.) La relation peut être écrite $||a\,\mathbf{1}||_2^2 = a^2$ $\omega\to a$ $X-\mu\mathbf{1}$ $\mathbf{1}$ $\mu$ $(1)$

| | X - a 1 | |_{2}^{2} = | | X - μ 1 | |_{2}^{2} + | | (a - μ) 1 | |_{2}^{2} .

$||X - a\mathbf{1}||_2^2 = ||X - \mu\mathbf{1}||_2^2 + ||(a-\mu)\mathbf{1}||_2^2.$

Il s'agit en effet précisément du théorème de Pythagore, essentiellement sous la même forme connue il y a 2500 ans. L'objet est l'hypoténuse d'un triangle rectangle avec les jambes et .

X - a 1 = (X - μ 1) - (a - μ) 1

$X-a\mathbf{1} = (X-\mu\mathbf{1})-(a-\mu)\mathbf{1}$

X - μ 1

$X-\mu\mathbf{1}$

(a - μ) 1

$(a-\mu)\mathbf{1}$

Si vous souhaitez des analogies mathématiques, vous pouvez utiliser tout ce qui peut être exprimé en termes d'hypoténuse d'un triangle rectangle dans un espace euclidien. L'hypoténuse représentera «l'erreur» et les jambes représenteront le biais et les écarts par rapport à la moyenne.

— whuber
source

Excellent. Le raisonnement est donc presque identique à celui de ma question précédente concernant

. Il y a donc une analogie entre eux, non? Il semble intuitivement que le biais est analogue à la signification. Et la généralisation est que la moyenne est le 1er moment par rapport à 0, mais le biais est par rapport à la vraie valeur d'un paramètre. Est-ce que ça sonne bien?

V a r = E X^{2} - (E X)^{2}

$Var = EX^2 - (EX)^2$

— Mitch

Oui - à la condition (qui est un aperçu ajouté par l'interprétation géométrique) que la bonne façon de mesurer ces choses est en termes de carrés.

— whuber

Alors whuber, j'ai une question connexe. Pour tout apprentissage automatique, j'ai ces deux concepts "si nous augmentons la taille de l'échantillon, la variance d'un estimateur asymptotiquement non biaisé ira à zéro" et "si nous augmentons la complexité du modèle, nous aurons donc un biais faible et une variance élevée" . Par conséquent, puis-je dire que plus de puissance de calcul permet plus de complexité, ce qui réduira le biais, mais augmentera la variance. Sous asymptotique cependant, cette augmentation de variance sera compensée.

— ARAT

@Mustafa Vous faites des hypothèses solides. La première est qu'un échantillon est aléatoire et (au moins approximativement) indépendant - ce qui n'est souvent pas le cas dans les applications ML. Les conclusions sur l'augmentation de la complexité du modèle ne sont généralement pas vraies, en partie parce que «l'augmentation de la complexité» implique que vous modifiez le modèle et cela remet en question la signification de ce que votre estimateur estime ainsi que la façon dont cet estimateur pourrait être lié à son estimand . Il ne s'ensuit pas nécessairement que la complexité croissante du modèle a un effet généralement prévisible sur le biais ou la variance.

— whuber

C'est une façon de penser visuellement la précision et le compromis du biais de variance. Supposons que vous regardez une cible et que vous effectuez de nombreux tirs qui sont tous dispersés près du centre de la cible de manière à ce qu'il n'y ait pas de biais. La précision est alors uniquement déterminée par la variance et lorsque la variance est faible, le tireur est précis.

Considérons maintenant un cas où il y a une grande précision mais un biais important. Dans ce cas, les tirs sont dispersés autour d'un point éloigné du centre. Quelque chose gâche le point de visée, mais autour de ce point de visée, chaque tir est proche de ce nouveau point de visée. Le tireur est précis mais très imprécis à cause du biais.

Il existe d'autres situations où les prises de vue sont précises en raison d'un faible biais et d'une grande précision. Ce que nous voulons, c'est pas de biais et une petite variance ou une petite variance avec un petit biais. Dans certains problèmes statistiques, vous ne pouvez pas avoir les deux. Ainsi, MSE devient la mesure de précision que vous souhaitez utiliser qui joue sur le compromis de variance et minimiser MSE devrait être l'objectif.

— Michael R. Chernick
source

Excellente description intuitive concernant l'analogie de la variance de biais et de l'exactitude. Je recherche également une interprétation mathématique comme le théorème de Pythagore.

— Mitch

Je ne me suis pas concentré sur cela parce qu'il était couvert dans un autre article qui parlait de l'interprétation géométrique. Je trouverai le lien pour vous.

— Michael R. Chernick

@Mitch La recherche de "compromis de variance de biais" a donné 134 résultats sur le site du CV. Je n'ai pas encore trouvé le théorème de Pythagore mais celui-ci est vraiment bon et a une photo des cibles que j'ai discutées sur ce post. "Explication intuitive du compromis biais-variance".

— Michael R. Chernick

X^{2}

$X^2$

E [X])^{2}

$E[X])^2$

@Mitch Je ne savais pas que vous aviez posté la question que je cherchais.

— Michael R. Chernick