Pourquoi ne peut-on pas généraliser le test de Kolmogorov-Smirnov à 2 dimensions ou plus?

La question dit tout. J'ai lu à la fois que l'on ne peut pas généraliser KS à une dimension égale ou supérieure à deux , et que les implémentations célèbres comme celle dans les recettes numériques sont tout simplement erronées. Pourriez-vous expliquer pourquoi?

kolmogorov-smirnov bivariate ecdf

— pedrofigueira
source

J'ai ajouté quelques balises (bivariées, empiriques et cdf), sur la base de la section citée (dans ma réponse) de l'article.

— Glen_b -Reinstate Monica

pedrofigueira - J'ai apporté des modifications substantielles à ma réponse (mon original était faux; désolé). Je ferai probablement plus de modifications car j'ai l'intention de revenir avec des références à plusieurs tests KS multivariés.

— Glen_b -Reinstate Monica

@Glen_b merci beaucoup pour tout votre temps et vos efforts!

— pedrofigueira

Je pense qu'il est légitime de citer la partie pertinente du paragraphe en question:

3. Le test KS ne peut pas être appliqué en deux dimensions ou plus. Les astronomes ont souvent des ensembles de données avec des points répartis dans un plan ou des dimensions supérieures, plutôt que le long d'une ligne. Plusieurs articles de la littérature astronomique prétendent présenter un test KS bidimensionnel, et un est reproduit dans le célèbre volume Numerical Recipes. Cependant, aucun test basé sur EDF (cela inclut les tests KS, AD et connexes) ne peut être appliqué en deux dimensions ou plus, car il n'y a pas de moyen unique de classer les points afin que les distances entre les EDF bien définis puissent être calculées. On peut construire une statistique basée sur une procédure de classement, puis calculer les distances suprêmes entre deux jeux de données (ou un jeu de données et une courbe). Mais les valeurs critiques de la statistique résultante ne sont pas sans distribution.

Comme indiqué, cela semble trop fort.

1) La fonction de distribution bivariée, qui est est une carte de à . Autrement dit, la fonction prenddes valeurs réellesunivariéesentre 0 et 1. Ces valeurs - étant des probabilités - sont certainement déjà "ordonnées" - et c'est là (la valeur de la fonction) que nous devons faire des comparaisons pour les tests basés sur ECDF . De même, le $F(x_1,x_2) = P(X_1\leq x_1,X_2\leq x_2)$ $\mathbb{R}^2$ $[0,1]$ $\hat F$ est parfaitement bien défini dans le cas bivarié.

Je ne pense pas qu'il soit nécessairement nécessaire d'essayer de le transformer en une fonction d'une variable combinée univariée comme le suggère le texte. Vous calculez simplement et à chaque combinaison requise et de calculer la différence. $F$ $\hat F$

2) Cependant, sur la question de savoir si c'est sans distribution, ils ont un point:

a) il est clair qu'une telle statistique de test ne serait pas altérée par des modifications des transformations des marges, c'est-à-dire si elle est construite comme un test d'uniformes indépendants bivariés, , alors elle fonctionne aussi bien que un test d'indépendant où . En ce sens, il est sans distribution (on pourrait dire «sans marge»). $\mathbf{U}=(U_1,U_2)$ $(X_1,X_2)$ $U_i=F_i(X_i)$

b) cependant, il y a un point sous-jacent plus généralement au sens large qu'une version naïve de la statistique KS (comme je viens de le décrire) n'est pas plus généralement libre de distribution; on ne peut pas simplement transformer arbitrairement . $U$ $X^* = \mathbf{g}(\mathbf{U})$

Dans une version antérieure de ma réponse, j'ai dit:

Il n'y a pas de difficulté, pas de problème

C'est faux. Il y a effectivement des problèmes s'il y a un changement non seulement des marges des uniformes indépendants bivariés, comme je viens de le mentionner. Cependant, ces difficultés ont été examinées de plusieurs manières dans un certain nombre d'articles qui produisent des versions bivariées / multivariées des statistiques de Kolmogorov-Smirnov qui ne souffrent pas de ce problème.

Je reviendrai peut-être pour ajouter certaines de ces références et discuter de leur fonctionnement dès que le temps le permettra.

— Glen_b -Reinstate Monica
source

Cette réponse est clairement correcte, mais attention: le fait que le test KS puisse être utilisé ne signifie pas qu'il doit être utilisé. Habituellement, il existe de bien meilleurs tests (plus puissants).

— kjetil b halvorsen

Certainement - bien que cela dépende des alternatives intéressantes.

— Glen_b -Reinstate Monica

Je ne comprends pas bien cette réponse. J'imagine que de nombreux ensembles de données astronomiques (ainsi que de nombreux autres ensembles de données de petite dimension) ne sont pas livrés avec des systèmes de coordonnées intrinsèquement significatifs. Ainsi, votre affirmation selon laquelle les points sont "déjà commandés" serait invalide dans de telles circonstances. Il pourrait être sauvé si vous pouviez montrer que la statistique KS est indépendante des coordonnées utilisées pour identifier les emplacements . Je ne pense pas que ce soit vrai dans deux dimensions ou plus, mais je peux me tromper.

— whuber

@whuber J'ai apporté des changements substantiels à la lumière de votre réponse très aimable à mon erreur. J'apporterai probablement d'autres modifications au fur et à mesure que j'ajouterai des références et plus de détails dans l'espoir d'apporter une réponse qui sera plus utile à plus long terme.

— Glen_b -Reinstate Monica

(+1) Merci beaucoup, Glen, d'avoir élargi cette réponse et de la rendre plus nuancée. Bien que je trouve la référence du PO de qualité douteuse (au début, elle interprète mal ce que signifient les tests d'hypothèse), il admet finalement que "le bootstrap peut venir à la rescousse, et les niveaux de signification pour la statistique multidimensionnelle particulière et l'ensemble de données particulier à l'étude peuvent être calculés numériquement. " Cela semble aligné, au moins dans l'esprit, sur la façon dont votre réponse se dessine.

— whuber