Prémisse: cela peut être une question stupide. Je ne connais que les déclarations sur les propriétés asymptotiques MLE, mais je n'ai jamais étudié les preuves. Si je le faisais, je ne poserais peut-être pas ces questions, ou je réaliserais peut-être que ces questions n'ont pas de sens ... alors s'il vous plaît allez-y doucement avec moi :)
J'ai souvent vu des déclarations qui disent que l'estimateur MLE des paramètres d'un modèle est asymptotiquement normal et efficace. La déclaration est généralement écrite comme
comme
où est le nombre d'échantillons, est l'information de Fisher et est la valeur vraie du paramètre (vecteur) . Maintenant, puisqu'il y a une référence à un vrai modèle, cela signifie-t-il que le résultat ne tiendra pas si le modèle n'est pas vrai?
Exemple: supposons que je modélise la puissance de sortie d'une éolienne en fonction de la vitesse du vent plus le bruit gaussien additif
Je sais que le modèle est erroné, pour au moins deux raisons: 1) est vraiment proportionnel à la troisième puissance de et 2) l'erreur n'est pas additive, car j'ai négligé d'autres prédicteurs qui ne sont pas sans corrélation avec la vitesse du vent (je sais aussi que devrait être 0 car à 0 vitesse du vent aucune puissance n'est générée, mais ce n'est pas pertinent ici). Supposons maintenant que j'ai une base de données infinie de données de puissance et de vitesse du vent de mon éolienne. Je peux dessiner autant d'échantillons que je veux, quelle que soit la taille. Supposons que je tire 1000 échantillons, chacun de taille 100, et calcule , l'estimation MLE de (qui selon mon modèle ne serait que l'estimation de l'OLS). J'ai donc 1000 échantillons de la distribution de . Je peux répéter l'exercice avec . En tant que , la distribution de devrait-elle avoir tendance à être asymptotiquement normale, avec la moyenne et la variance indiquées? Ou le fait que le modèle soit incorrect invalide-t-il ce résultat?
La raison pour laquelle je demande, c'est que rarement (voire jamais) les modèles sont "vrais" dans les applications. Si les propriétés asymptotiques du MLE sont perdues lorsque le modèle n'est pas vrai, il peut être judicieux d'utiliser des principes d'estimation différents, qui, bien que moins puissants dans un contexte où le modèle est correct, peuvent mieux fonctionner que le MLE dans d'autres cas.
EDIT : il a été noté dans les commentaires que la notion de vrai modèle peut être problématique. J'avais la définition suivante à l'esprit: étant donné une famille de modèles indiquée par le vecteur de paramètres , pour chaque modèle de la famille, vous pouvez toujours écrire θ
en définissant simplement comme . Cependant, en général, l'erreur ne sera pas orthogonale à , aura une moyenne de 0 et elle n'aura pas nécessairement la distribution supposée dans la dérivation du modèle. S'il existe une valeur telle que a ces deux propriétés, ainsi que la distribution supposée, je dirais que le modèle est vrai. Je pense que cela est directement lié au fait de dire que , car le terme d'erreur dans la décompositionY - f θ ( X ) X θ 0 ϵ f θ 0 ( X ) = E [ Y | X ]
a les deux propriétés mentionnées ci-dessus.