RV Foutz et RC Srivastava ont examiné la question en détail. Leur article de 1977 "La performance du test du rapport de vraisemblance lorsque le modèle est incorrect" contient une déclaration du résultat de la distribution en cas de mauvaise spécification ainsi qu'un très bref croquis de la preuve, tandis que leur article de 1978 "La distribution asymptotique du rapport de vraisemblance lorsque le modèle est incorrect " contient la preuve - mais celle-ci est tapée dans un typographe à l'ancienne (les deux articles utilisent cependant la même notation, vous pouvez donc les combiner en lecture). En outre, pour certaines étapes de la preuve, ils se réfèrent à un article de KP Roy "Une note sur la distribution asymptotique du rapport de vraisemblance" de 1957 qui ne semble pas être disponible en ligne, même fermé.
En cas de spécification erronée de la distribution, si le MLE est toujours cohérent et asymptotiquement normal (ce qui n'est pas toujours le cas), la statistique LR suit asymptotiquement une combinaison linéaire de chi-carrés indépendants (chacun d'un degré de liberté)
−2lnλ→d∑i=1rciχ2i
où . On peut voir la "similitude": au lieu d'un chi carré avec h - m degrés de liberté, nous avons h - m chi carrés chacun avec un degré de liberté. Mais "l'analogie" s'arrête là, car une combinaison linéaire de chi-carrés n'a pas de densité de forme fermée. Chaque chi carré mis à l'échelle est un gamma, mais avec un paramètre c i différent qui conduit à un paramètre d'échelle différent pour le gamma - et la somme de ces gammas n'est pas de forme fermée, bien que ses valeurs puissent être calculées.r=h−mh−mh−mci
Pour les constantes , nous avons c 1 ≥ c 2 ≥ . . . c r ≥ 0 , et ce sont les valeurs propres d'une matrice ... quelle matrice? Eh bien, en utilisant la notation des auteurs, définissez Λ comme la Hesse de la log-vraisemblance et C comme le produit extérieur du gradient de la log-vraisemblance (en termes d'espérance). Donc V = Λ - 1 C ( Λ ′ ) - 1 est la matrice asymptotique de variance-covariance du MLE.cic1≥c2≥...cr≥0ΛCV=Λ−1C(Λ′)−1
Ensuite , mettre en à la r × r bloc supérieur diagonale de V . Mr×rV
Ecrivez également sous forme de blocΛ
Λ=[Λr×rΛ2Λ′2Λ3]
et fixons ( W est le négatif du complément de Schur de Λ ).W=−Λr×r+Λ′2Λ−13Λ2WΛ
Les sont alors les valeurs propres de la matrice M W évaluées aux vraies valeurs des paramètres.ciMW
ADDENDUM
Répondant à la remarque valable du PO dans les commentaires (parfois, en effet, les questions deviennent un tremplin pour partager un résultat plus général, et elles-mêmes peuvent être négligées dans le processus), voici comment procède la preuve de Wilks: Wilks commence par l'articulation distribution normale du MLE, et procède à dériver l'expression fonctionnelle du rapport de vraisemblance. Jusqu'à et y compris son éq. , la preuve peut avancer même si nous supposons que nous avons une erreur de distribution: comme le note l'OP, les termes de la matrice de covariance de la variance seront différents dans le scénario de l'erreur de spécification, mais tout ce que Wilks fait est de prendre des dérivés et d'identifier termes asymptotiquement négligeables. Et donc il arrive à l'eq. [ 9 ][9][9]h−mh−m
−2lnλ=∑i=1h−m(n−−√θ^i−θiσi)2→dχ2h−m
But if we have misspecification, then the terms that are used in order to scale the centered and magnified MLE n−−√(θ^−θ) are no longer the terms that will make the variances of each element equal to unity, and so transform each term into a standard normal r.v and the sum into a chi-square.
And they are not, because these terms involve the expected values of the second derivatives of the log-likelihood... but the expected value can only be taken with respect to the true distribution, since the MLE is a function of the data and the data follows the true distribution, while the second derivatives of the log-likelihood are calculated based on the wrong density assumption.
So under misspecification we have something like
−2lnλ=∑i=1h−m(n−−√θ^i−θiai)2
and the best we can do is to manipulate it into
−2lnλ=∑i=1h−mσ2ia2i(n−−√θ^i−θiσi)2=∑i=1h−mσ2ia2iχ21
which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with h−m degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.