l'estimateur ML donne la valeur du paramètre la plus susceptible de se produire dans l'ensemble de données.
Compte tenu des hypothèses, l'estimateur ML est la valeur du paramètre qui a les meilleures chances de produire l'ensemble de données.
Je ne peux pas comprendre intuitivement un estimateur ML biaisé en ce sens que "Comment la valeur la plus probable pour le paramètre peut-elle prédire la valeur réelle du paramètre avec un biais vers une mauvaise valeur?"
Le biais concerne les attentes des distributions d'échantillonnage. «Le plus susceptible de produire les données» ne concerne pas les attentes des distributions d'échantillonnage. Pourquoi devraient-ils aller ensemble?
Sur quelle base est-il surprenant qu'ils ne correspondent pas nécessairement?
Je vous suggère de considérer quelques cas simples de MLE et de réfléchir à la façon dont la différence survient dans ces cas particuliers.
Par exemple, considérons les observations sur l'uniforme sur . La plus grande observation n'est (nécessairement) pas plus grande que le paramètre, donc le paramètre ne peut prendre que des valeurs au moins aussi grandes que la plus grande observation.( 0 , θ )
Lorsque vous considérez la probabilité de , elle est (évidemment) plus grande lorsque θ est proche de la plus grande observation. Il est donc maximisé à la plus grande observation; c'est clairement l'estimation de θ qui maximise les chances d'obtenir l'échantillon que vous avez obtenu:θθθ
Mais d'un autre côté, elle doit être biaisée, car la plus grande observation est évidemment (avec probabilité 1) inférieure à la vraie valeur de ; toute autre estimation de θ non encore exclue par l'échantillon lui-même doit être plus grande que celle-ci et doit (tout simplement dans ce cas) être moins susceptible de produire l'échantillon.θθ
L'espérance de la plus grande observation d'un est nU( 0 , θ ) ,sortela manière habituelle pour unbias il est à prendre comme l'estimateur deθ: θ =n+1nn + 1θ, oùX(n)est la plus grande observation.θ^= n + 1nX( n )X( n )
Cela se trouve à la droite du MLE et a donc une probabilité plus faible.