pourquoi l'impartialité n'implique pas la cohérence

Je lis l'apprentissage en profondeur par Ian Goodfellow et al. Il introduit un biais car

B i a s (θ) = E (\hat{θ}) - θ

$Bias(\theta)=E(\hat\theta)-\theta$ où et sont respectivement le paramètre estimé et le paramètre réel sous-jacent.

\hat{θ}

$\hat\theta$

θ

$\theta$

La cohérence, d'autre part, est définie par ce qui signifie que pour tout , as

{l i m}_{m \to \infty} {\hat{θ}}_{m} = θ

$\mathrm{lim}_{m\to\infty}\hat\theta_m=\theta$

ϵ > 0

$\epsilon > 0$

P (| {\hat{θ}}_{m} - θ | > ϵ) \to 0

$P(|\hat\theta_m-\theta|>\epsilon)\to0$

m \to \infty

$m\to\infty$

Ensuite, il dit que la cohérence implique l'impartialité, mais pas l'inverse:

La cohérence garantit que le biais induit par l'estimateur diminue à mesure que le nombre d'exemples de données augmente. Cependant, l'inverse n'est pas vrai - l'impartialité asymptotique n'implique pas la cohérence. Par exemple, considérons l'estimation du paramètre moyen μ d'une distribution normale N (x; μ, σ2), avec un ensemble de données composé de m échantillons: . Nous pourrions utiliser le premier échantillon de l'ensemble de données comme estimateur non biaisé: . Dans ce cas, donc l'estimateur est sans biais, quel que soit le nombre de points de données visibles. Cela implique bien sûr que l'estimation est asymptotiquement non biaisée. Cependant, ce n'est pas un estimateur cohérent car il n'est pas vrai que as ${x^{(1)}, . . . , x^{(m)}}$ $x^{(1)}$ $\hatθ = x^{(1)}$ $E(\hat θ_m) = θ$ $\hatθ_m → θ$ $m → ∞$

Je ne sais pas si j'ai bien compris le paragraphe ci-dessus et les concepts d'impartialité et de cohérence, j'espère que quelqu'un pourrait m'aider à le vérifier. Merci d'avance.

D'après ce que je comprends, la cohérence implique à la fois un caractère non biaisé et une faible variance et, par conséquent, le caractère non biaisé seul n'est pas suffisant pour impliquer la cohérence.

— Peut être
source

Si le biais = 0 et la variance-> 0, alors c'est cohérent. Et si le biais-> 0 et la variance-> 0, c'est cohérent; il s'agit de "biais asymptotiques". Les deux découlent du fait que l'erreur quadratique attendue = biais ^ 2 + variance.

— user54038

Il ne dit pas que la cohérence implique l'impartialité, car ce serait faux. Par exemple, l'estimateur est un estimateur cohérent pour la moyenne de l'échantillon, mais il n'est pas sans biais. L'extrait ci-dessus indique que la cohérence diminue la quantité de biais induite par un estimateur de biais!. Dans le cas de la moyenne de l'échantillon, la différence entre et devient négligeable lorsque augmente

\frac{1}{N - 1} \sum_{i} x_{i}

$\frac{1}{N-1} \sum_i x_i$

N

$N$

N - 1

$N-1$

N

$N$

— Yannis Vassiliadis

Êtes-vous sûr que c'est impartial? Je pense que c'est impartial: 1 / n fois la somme serait biaisée.

— eSurfsnake

@eSurfsnake, c'est pour la variance de l'échantillon. Pour la moyenne de l'échantillon que je mentionne ci-dessus, est à la fois sans biais et cohérent, tandis que est uniquement cohérent.

\frac{1}{N} \sum_{i} x_{i}

$\frac{1}{N} \sum_i x_i$

\frac{1}{N - 1} \sum_{i} x_{i}

$\frac{1}{N-1} \sum_i x_i$

— Yannis Vassiliadis

OK - j'avais pensé que vous posiez des questions sur l'écart.

— eSurfsnake

Réponses:

Dans ce paragraphe, les auteurs donnent un exemple extrême pour montrer comment le fait d'être impartial ne signifie pas qu'une variable aléatoire converge vers quoi que ce soit.

Les auteurs prennent un échantillon aléatoire et veulent estimer . En notant que , nous pourrions produire un estimateur non biaisé de en ignorant simplement toutes nos données à l'exception du premier point . Mais c'est clairement une idée terrible, donc l'impartialité seule n'est pas un bon critère pour évaluer un estimateur. D'une manière ou d'une autre, à mesure que nous obtenons plus de données, nous voulons que notre estimateur varie de moins en moins de , et c'est exactement ce que dit la cohérence: pour toute distance , la probabilité que soit plus que éloigné de $X_1,\dots, X_n \sim \mathcal N(\mu,\sigma^2)$ $\mu$ $E(X_1) = \mu$ $\mu$ $X_1$ $\mu$ $\varepsilon$ $\hat \theta_n$ $\varepsilon$ $\theta$ se dirige vers comme . Et cela peut arriver même si pour tout fini est biaisé. Un exemple de ceci est l'estimateur de variance dans un échantillon normal. Ceci est biaisé mais cohérent. $0$ $n \to \infty$ $n$ $\hat \theta$ $\hat \sigma^2_n = \frac 1n \sum_{i=1}^n(y_i - \bar y_n)^2$

Intuitivement, une statistique est non biaisée si elle est exactement égale à la quantité cible lorsqu'elle est calculée en moyenne sur tous les échantillons possibles. Mais nous savons que la moyenne d'un tas de choses n'a pas besoin d'être proche de la moyenne des choses; c'est juste une version plus sophistiquée de la façon dont la moyenne de et est , bien que ni ni soient particulièrement proches de (selon la façon dont vous mesurez "proche"). $0$ $1$ $1/2$ $0$ $1$ $1/2$

Voici un autre exemple (bien que ce soit presque le même exemple déguisé). Soit et laissez . Notre estimateur de sera . Notez que nous avons donc en effet un estimateur sans biais. Mais donc cet estimateur ne converge certainement pas vers quelque chose de proche de , et pour chaque nous avons en fait encore . $X_1 \sim \text{Bern}(\theta)$ $X_2 = X_3 = \dots = X_1$ $\theta$ $\hat \theta(X) = \bar X_n$ $E \bar X_n = p$ $\bar X_n = X_1 \in \{0,1\}$ $\theta \in (0,1)$ $n$ $\bar X_n \sim \text{Bern}(\theta)$

— jld
source

L'inverse est également faux. Un estimateur peut avoir un biais et une variance qui vont tous les deux à 0 lorsque n approche de l'infini, ce qui le rend cohérent. Mais pour chaque n, il sera biaisé car il aura un biais non nul. Par exemple, l'estimation de la variance avec n dans le dénominateur est biaisée et cohérente tandis que si vous divisez par n-1, elle sera non biaisée et consista.t.

— Michael R. Chernick

D'après ce que je comprends, la cohérence implique à la fois un caractère non biaisé et une faible variance et, par conséquent, le caractère non biaisé seul n'est pas suffisant pour impliquer la cohérence.

Droite. Ou en utilisant les termes un peu plus profanes de «précision» pour un faible biais et de «précision» pour une faible variance, la cohérence exige que nous soyons à la fois précis et précis. Être juste ne signifie pas que nous atteignons la cible. C'est comme la vieille blague sur deux statisticiens qui partent à la chasse. On manque un cerf à dix pieds à gauche. L'autre manque dix pieds à droite. Ils se félicitent ensuite les uns les autres sur la base qu'en moyenne, ils ont frappé le cerf. Même si leur biais est nul, pour toucher réellement le cerf, ils ont également besoin d'une faible variance.

— Accumulation
source