Un modèle graphique probabiliste (PGM) est un formalisme graphique permettant de modéliser de manière compacte des distributions de probabilités conjointes et des relations de (in) dépendance sur un ensemble de variables aléatoires. Un PGM est appelé un réseau bayésien lorsque le graphe sous-jacent est dirigé, et un réseau aléatoire de Markov / champ aléatoire de Markovlorsque le graphe sous-jacent n'est pas orienté. D'une manière générale, vous utilisez la première pour modéliser l'influence probabiliste entre les variables qui ont une directionnalité claire, sinon vous utilisez la seconde; dans les deux versions de PGM, l'absence d'arêtes dans les graphiques associés représente des indépendances conditionnelles dans les distributions codées, bien que leur sémantique exacte diffère. Le "Markov" dans le "réseau de Markov" fait référence à une notion générique d'indépendance conditionnelle codée par les PGM, celle d'un ensemble de variables aléatoires xA étant indépendantes des autres xC étant donné un ensemble de variables "importantes" xB (le nom technique est une couverture de Markov ), c.-à-d.p(xA|xB,xC)=p(xA|xB) .
Un processus de Markov est tout processus stochastique {Xt} qui satisfait la propriété Markov . Ici , l'accent est mis sur une collection de (scalaires) variables aléatoires X1,X2,X3,...généralement considéré comme étant indexé par le temps, qui satisfait un type spécifique d'indépendance conditionnelle, c'est-à-dire que "l'avenir est indépendant du passé étant donné le présent", grosso modo p(xt+1|xt,xt−1,...,x1)=p(xt+1|xt) . Ceci est un cas particulier de la notion de 'Markov' définie par les PGM: prenez simplement l'ensembleA={t+1},B={t} , et prenezC pour être n'importe quel sous-ensemble de{t−1,t−2,...,1}et invoquer l'instruction précédente p(xA|xB,xC)=p(xA|xB) . De cela, nous voyons que la couverture de Markov de toute variable Xt+1 est son prédécesseur Xt .
Par conséquent, vous pouvez représenter un processus de Markov avec un réseau bayésien , comme une chaîne linéaire indexée par le temps (pour plus de simplicité, nous ne considérons ici que le cas du temps / état discret; image du livre PRML de Bishop):
Ce type de réseau bayésien est connu sous le nom de réseau bayésien dynamique . Puisqu'il s'agit d'un réseau bayésien (d'où une PGM), on peut appliquer des algorithmes PGM standard pour l'inférence probabiliste (comme l'algorithme de somme de produits, dont les équations de Chapman-Kolmogorov représentent un cas spécial) et l'estimation des paramètres (par exemple, la probabilité maximale, qui bout jusqu'au simple comptage) sur la chaîne. Des exemples d'application de ceci sont le modèle de langage HMM et n-gram.
Souvent, vous voyez un diagramme représentant une chaîne de Markov comme celle-ci
p(Xt|Xt−1)Xt(X(1)t,...X(D)t)p(X(1)t,...X(D)t|X(1)t−1,...X(D)t−1)
Xtt → ∞p ( xt + 1| Xt, xt - 1, . . . , x1) = p ( xt + 1| Xt)et peut donc être trivialement représenté par un réseau bayésien en chaîne, tandis que les réseaux bayésiens dynamiques peuvent exploiter toute la puissance de représentation des PGM pour modéliser les interactions entre plusieurs variables aléatoires (c'est-à-dire des vecteurs aléatoires) dans le temps; une grande référence à ce sujet est le chapitre 6 du livre PGM de Daphne Koller .