tester si une chaîne de Markov est égale à une chaîne théorique

J'ai une matrice de comptage de transitions empirique Q. J'ai une chaîne de Markov théorique de premier ordre P. Dites N est le nombre de transitions. Je voudrais tester si Q est compatible avec P. Est-il correct de trouver la matrice de transition de comptage théorique (N * P) calculant les statistiques du chi carré, $\sum_{i,j}^{K} \frac{(Q_{ij}-(N*P_{ij}))^2}{N*P_{ij}}$ , puis calculer la valeur de p d'un $\chi^2$ distribution avec $K*(K-1)$ degrés de liberté?

hypothesis-testing chi-squared markov-process

— Giorgio Spedicato
source

Je ne suis pas très familier avec les tests du chi carré, mais en survolant, il semble être couramment utilisé pour les données multinomiales (par exemple ici ). Je pense que chaque rangée de

P

$P$ devrait correspondre à une distribution multinomiale? Alors vous pourriez utiliser

n_{i}

$n_i$ pour la ligne

i

$i$ c'est-à-dire le nombre de transitions "de

i

$i$ ". C'est, "

N

$N$ "peut varier en fonction de l'état de départ?

— GeoMatt22

En supposant que vos matrices sont quelque chose comme

P_{i j} = Pr [j ∣ i], Q_{i j} = \sum_{t = 1}^{N} [x_{t} = i & x_{t + 1} = j]

$P_{ij}=\Pr[j\mid\!i] \,,\, Q_{ij}=\sum_{t=1}^N\big[x_t=i\,\&\,x_{t+1}=j\,\big]$ alors vous pourriez interpréter chaque ligne comme une distribution multinomiale avec les paramètres

i

$i$

p_{i} = P_{i, :}, n_{i} = \sum_{j = 1}^{K} Q_{i j}

$p_i=P_{i,:} \,,\, n_i=\sum_{j=1}^{K}Q_{ij}$

Je ne suis pas sûr que vous puissiez regrouper toutes les lignes ensemble, car le "nombre d'essais" variera entre les lignes.

Par exemple, dites et vos données sont . Il y a donc transitions, avec venant de , mais de et seulement et de . Je pense donc que votre confiance dans devrait généralement être plus élevée que votre confiance dans . $K=3$ $x=[1,1,2,1,2,3,1,2]$ $N=7$ $n_1=4$ $x=1$ $n_2=2$ $x=2$ $n_3=1$ $x=3$ $\hat{p}_1$ $\hat{p}_3$

(Dans le cas extrême, peut-être que pour cet exemple, était en fait , mais vous n'avez aucune donnée sur ces transitions, car Le traitement de "l'absence de preuves comme des preuves d'absence" me semble problématique ici.) $K$ $4$ $n_4=0$

Je ne suis pas très familier avec les tests du chi carré, mais cela suggère que vous voudrez peut-être traiter les lignes indépendamment (c'est-à-dire additionner uniquement sur et utiliser plutôt que ). Ce raisonnement ne semble pas spécifique au test du chi carré, donc devrait également s'appliquer à tout autre test de signification que vous pourriez utiliser (par exemple multinomial exact ). $j$ $n_i$ $N$

Le problème clé est que les probabilités de transition sont conditionnelles , donc pour chaque entrée de matrice, seules les transitions qui satisfont à sa condition préalable sont pertinentes. En effet, on suppose que la matrice de transition satisfera , donc la "matrice de transition empirique" devrait être . $\sum_jP_{ij}=1$ $\hat{P}_{ij}=Q_{ij}/n_i$

Mise à jour: En réponse à la requête de l'OP, une clarification sur les "paramètres de test".

S'il y a états dans la chaîne de Markov, c'est-à-dire , alors pour la ligne , la distribution multinomiale correspondante aura le vecteur de probabilité et nombre d'essais , donnés ci-dessus. $K$ $P\in\mathbb{R}^{K\times{K}}$ $i$ $p_i\in\mathbb{R}^K$ $n_i\in\mathbb{N}$

Il y aura donc catégories, et le vecteur de probabilité aura degrés de liberté, comme . Donc, pour la ligne la statistique correspondante serait qui sera asymptotiquement suivre un chi carré distribué avec degrés de liberté (comme indiqué ici et ici ). Voir également ici pour une discussion sur le moment où le est approprié, et des tests alternatifs qui peuvent être plus appropriés. $K$ $p_i$ $K-1$ $\sum_{j=1}^K(p_i)_j=1$ $i$ $\chi^2$

χ_{i}^{2} = \sum_{j} \frac{{(Q_{i j} - n_{i} P_{i j})}^{2}}{n_{i} P_{i j}}

$\chi^2_i=\sum_j\frac{\left(Q_{ij}-n_iP_{ij}\right)^2}{n_iP_{ij}}$

K - 1

$K-1$

χ^{2}

$\chi^2$

Il peut être possible de faire un "test ", en supposant que suit une distribution chi au carré avec dof (c'est-à-dire la somme des dofs sur les lignes). Cependant, je ne suis pas certain que le puisse être traité comme indépendant. Dans tous les cas, les tests en ligne semblent être plus informatifs, ils peuvent donc être préférables à un test en bloc. $\chi^2_P=\sum_i\chi^2_i$ $K(K-1)$ $\chi^2_i$

— GeoMatt22
source

Idée intelligente pour le traiter comme une distribution multinomiale. La somme de deux variables chi carré est chi carré, de sorte que les statistiques de test pour chaque ligne peuvent être informatisées séparément et additionnées ensemble pour produire une nouvelle statistique de test chi carré. Cela aura degrés de liberté

N - K

$N-K$

— Hugh

@ Hugh je ne suis pas assez familier pour évaluer, mais cela pourrait très bien être raisonnable. Mon point principal était plus que l'approche "ligne par ligne" semble justifiable, et plus informative, que l'approche "forfaitaire". (Je suppose qu'un point secondaire est que tout le travail sur le chi carré pour les multinomiaux, par exemple la convergence asymptotique, pourrait être un bon point de départ. peut offrir!) Vous pourriez envisager de poster une réponse courte abordant l'aspect chi carré plus directement.

— GeoMatt22

@ GeoMatt22 ... Alors, est-il correct que le nombre de degrés de liberté pour le test du chi carré soit égal à étant N la taille du dtmc?

N^{2} - N

$N^2-N$

— Giorgio Spedicato

Giorgio, voir ma mise à jour.

— GeoMatt22

@ Hugh s'il vous plaît voir ma réponse mise à jour. A noter que Wikipédia dit "Il faut noter que les degrés de liberté ne sont pas basés sur le nombre d'observations". Je ne sais pas si mes DOF pour un "test groupé" sont corrects, mais je ne sais pas non plus d' où proviendront vos DOF ! Une clarification?

K (K - 1)

$K(K-1)$

N - K

$N-K$

— GeoMatt22