La distance de Mahalanobis, lorsqu'elle est utilisée à des fins de classification, suppose généralement une distribution normale multivariée, et les distances par rapport au centroïde doivent ensuite suivre une (avec degrés de liberté égaux au nombre de dimensions / caractéristiques). Nous pouvons calculer la probabilité qu'un nouveau point de données appartient à l'ensemble en utilisant sa distance de Mahalanobis.
J'ai des ensembles de données qui ne suivent pas une distribution normale multivariée ( ). En théorie, chaque entité devrait suivre une distribution de Poisson, et empiriquement cela semble être le cas pour de nombreuses entités ( ), et celles qui ne sont pas dans le bruit et peuvent être supprimées de l'analyse. Comment classer de nouveaux points sur ces données?
Je suppose qu'il y a deux composantes:
- Quelle est la formule «distance de Mahalanobis» appropriée sur ces données (c.-à-d. Distribution de Poisson multivariée)? Y a-t-il une généralisation de la distance aux autres distributions?
- Que j'utilise la distance normale de Mahalanobis ou une autre formulation, quelle devrait être la distribution de ces distances? Existe-t-il une manière différente de faire le test d'hypothèse?
Alternativement ...
Le nombre de points de données connus dans chaque classe varie considérablement, de (trop peu; je vais déterminer un minimum empiriquement) à environ . La distance de Mahalanobis s'échelonne avec , donc les distances d'un modèle / classe au suivant ne peuvent pas être directement comparées. Lorsque les données sont distribuées normalement, le test du chi carré fournit un moyen de comparer les distances de différents modèles (en plus de fournir des valeurs critiques ou des probabilités). S'il existe une autre façon de comparer directement les distances "de type Mahalanobis", même si elle ne fournit pas de probabilités, je pourrais travailler avec cela.