@Silverfish a demandé une extension de la réponse de PolatAlemdar, qui n'a pas été donnée, je vais donc essayer de la développer ici.
Pourquoi le nom distance chisquare? Le test chisquare des tables de contingence est basé sur
donc l'idée est de conserver ce formulaire et de l'utiliser comme un mesure de distance. Cela donne la troisième formule de l'OP, avec interprété comme observation et comme attente, ce qui explique le commentaire de PolatAlemdar "Il est utilisé dans les distributions de probabilité discrètes", comme par exemple dans le test de qualité de l'ajustement. Cette troisième forme n'est pas une fonction de distance, car elle est asymétrique dans les variables et . Pour la comparaison d'histogramme, nous voulons une fonction de distance symétrique en et xiyixyxy1
χ2=∑cells(Oi−Ei)2Ei
xiyixyxy, et les deux premières formes donnent cela. La différence entre eux n'est qu'un facteur constant , ce qui est sans importance tant que vous choisissez simplement une forme de manière cohérente (bien que la version avec un facteur supplémentaire soit meilleure si vous voulez comparer avec la forme asymétrique). Notez la similitude de ces formules avec la distance euclidienne au carré, ce n'est pas une coïncidence, la distance chisquare est une sorte de distance euclidienne
pondérée . Pour cette raison, les formules de l'OP sont généralement placées sous un signe racine pour obtenir les
distances . Dans ce qui suit, nous suivons ceci.
11212
La distance Chisquare est également utilisée dans l'analyse des correspondances. Pour voir la relation avec le formulaire utilisé ici, soit les cellules d'un tableau de contingence avec lignes et colonnes. Notons que les totaux des lignes sont et les totaux des colonnes par . La distance chisquare entre les lignes est donnée par
Pour le cas avec seulement deux lignes (les deux histogrammes), celles-ci récupèrent la première formule de l'OP (modulo le signe racine). xijRCx+j=∑ixijxi+=∑jxijl,k
χ2(l,k)=∑j1x+j(xljxl+−xkjxk+)2−−−−−−−−−−−−−−−−−−−⎷
EDIT
Répondre à la question dans les commentaires ci-dessous: Un livre avec de longues discussions sur la distance chisquare est "CORRESPONDENCE ANALYSIS in PRATICE (Second Edition)" de Michael Greenacre (Chapman & Hall). C'est un nom bien établi, provenant de sa similitude avec chisquare tel qu'il est utilisé avec les tables de contingence. Quelle est sa distribution? Je n'ai jamais étudié cela, mais probablement (sous certaines conditions ...) il aurait une distribution chisquare, approximativement. Les preuves devraient être similaires à ce qui est fait avec les tableaux de contingence, la plupart des publications sur l'analyse des correspondances n'entrent pas dans la théorie de la distribution. Un article ayant une telle théorie, peut-être pertinente, est http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Regarde aussi/stats//search?q=%22chisquare+distance%22 pour d'autres publications pertinentes sur ce site.