Si j'ai un échantillon iid normal multivarié , et définissez (qui est une sorte de distance de Mahalanobis [au carré] d'un point d'échantillon au vecteur utilisant la matrice pour la pondération), quelle est la distribution de d_i ^ 2 (\ bar X, S) (distance de Mahalanobis au moyenne de l'échantillon \ bar X en utilisant la matrice de covariance de l'échantillon S )?
Je regarde un article qui prétend que c'est , mais c'est évidemment faux: la aurait été obtenue pour utilisant le vecteur moyen de population (inconnu) et matrice de covariance. Lorsque les exemples d'échantillons sont branchés, il faut obtenir une distribution Hotelling , ou une distribution échelle, ou quelque chose comme ça, mais pas le . Je n'ai pu trouver le résultat exact ni dans Muirhead (2005) , ni dans Anderson (2003) , ni dans Mardia, Kent et Bibby (1979, 2003). Apparemment, ces gars-là ne se sont pas souciés des diagnostics aberrants, car la distribution normale multivariée est parfaite et est facilement obtenue à chaque fois que l'on recueille des données multivariées: - /.
Les choses peuvent être plus compliquées que cela. Le résultat de la distribution de Hotelling est basé sur l'hypothèse d'une indépendance entre la partie vectorielle et la partie matricielle; cette indépendance est valable pour et , mais il ne détient plus pour et .