Différence entre les réseaux bayésiens et le processus de Markov?

28

Quelle est la différence entre un réseau bayésien et un processus de Markov?

Je croyais comprendre les principes des deux, mais maintenant, quand j'ai besoin de comparer les deux, je me sens perdu. Ils signifient presque la même chose pour moi. Ils ne le sont certainement pas.

Les liens vers d'autres ressources sont également appréciés.

— rock star
source

Je me souviens que quelqu'un m'a dit sur ce site que les réseaux bayésiens n'exigent pas nécessairement l'inférence bayésienne. Leurs noms viennent de la règle Bayes.

— Tim

21

Un modèle graphique probabiliste (PGM) est un formalisme graphique permettant de modéliser de manière compacte des distributions de probabilités conjointes et des relations de (in) dépendance sur un ensemble de variables aléatoires. Un PGM est appelé un réseau bayésien lorsque le graphe sous-jacent est dirigé, et un réseau aléatoire de Markov / champ aléatoire de Markovlorsque le graphe sous-jacent n'est pas orienté. D'une manière générale, vous utilisez la première pour modéliser l'influence probabiliste entre les variables qui ont une directionnalité claire, sinon vous utilisez la seconde; dans les deux versions de PGM, l'absence d'arêtes dans les graphiques associés représente des indépendances conditionnelles dans les distributions codées, bien que leur sémantique exacte diffère. Le "Markov" dans le "réseau de Markov" fait référence à une notion générique d'indépendance conditionnelle codée par les PGM, celle d'un ensemble de variables aléatoires $x_A$ étant indépendantes des autres $x_C$ étant donné un ensemble de variables "importantes" $x_B$ (le nom technique est une couverture de Markov ), c.-à-d. $p(x_A|x_B, x_C) = p(x_A|x_B)$ .

Un processus de Markov est tout processus stochastique $\{X_{t}\}$ qui satisfait la propriété Markov . Ici , l'accent est mis sur une collection de (scalaires) variables aléatoires $X_1, X_2, X_3, ...$ généralement considéré comme étant indexé par le temps, qui satisfait un type spécifique d'indépendance conditionnelle, c'est-à-dire que "l'avenir est indépendant du passé étant donné le présent", grosso modo $p(x_{t+1}|x_t, x_{t-1}, ..., x_1) = p(x_{t+1}|x_t)$ . Ceci est un cas particulier de la notion de 'Markov' définie par les PGM: prenez simplement l'ensemble $A=\{t+1\}, B=\{t\}$ , et prenez $C$ pour être n'importe quel sous-ensemble de $\{t-1, t-2, ..., 1\}$ et invoquer l'instruction précédente $p(x_A|x_B, x_C) = p(x_A|x_B)$ . De cela, nous voyons que la couverture de Markov de toute variable $X_{t+1}$ est son prédécesseur $X_t$ .

Par conséquent, vous pouvez représenter un processus de Markov avec un réseau bayésien , comme une chaîne linéaire indexée par le temps (pour plus de simplicité, nous ne considérons ici que le cas du temps / état discret; image du livre PRML de Bishop): Ce type de réseau bayésien est connu sous le nom de réseau bayésien dynamique . Puisqu'il s'agit d'un réseau bayésien (d'où une PGM), on peut appliquer des algorithmes PGM standard pour l'inférence probabiliste (comme l'algorithme de somme de produits, dont les équations de Chapman-Kolmogorov représentent un cas spécial) et l'estimation des paramètres (par exemple, la probabilité maximale, qui bout jusqu'au simple comptage) sur la chaîne. Des exemples d'application de ceci sont le modèle de langage HMM et n-gram.

Souvent, vous voyez un diagramme représentant une chaîne de Markov comme celle-ci

$p(X_t|X_{t-1})$ $X_t$ $(X_t^{(1)},...X_t^{(D)})$ $p(X_t^{(1)},...X_t^{(D)}|X_{t-1}^{(1)},...X_{t-1}^{(D)})$

$X_t$ $t \to \infty$ $p(x_{t+1}|x_t, x_{t-1}, ..., x_1) = p(x_{t+1}|x_t)$ et peut donc être trivialement représenté par un réseau bayésien en chaîne, tandis que les réseaux bayésiens dynamiques peuvent exploiter toute la puissance de représentation des PGM pour modéliser les interactions entre plusieurs variables aléatoires (c'est-à-dire des vecteurs aléatoires) dans le temps; une grande référence à ce sujet est le chapitre 6 du livre PGM de Daphne Koller .

— Yibo Yang
source

17

Tout d'abord quelques mots sur les processus de Markov. Il y a quatre saveurs distinctes de cette bête, selon l'espace d'état (discret / continu) et la variable temporelle (discrète / continue). L'idée générale de tout processus de Markov est que "étant donné le présent, l'avenir est indépendant du passé".

Le processus de Markov le plus simple est l'espace discret et fini et la chaîne de Markov à temps discret. Vous pouvez le visualiser comme un ensemble de nœuds, avec des bords dirigés entre eux. Le graphique peut avoir des cycles et même des boucles. Sur chaque bord, vous pouvez écrire un nombre compris entre 0 et 1, de telle manière que pour chaque nœud les numéros sur les bords sortant de ce nœud totalisent 1.

Imaginez maintenant un processus suivant: vous commencez dans un état donné A. Chaque seconde, vous choisissez au hasard un front sortant dans l'état dans lequel vous vous trouvez actuellement, avec une probabilité de choisir ce front égal au nombre sur ce bord. De cette façon, vous générez au hasard une séquence d'états.

Une visualisation très cool d'un tel processus peut être trouvée ici: http://setosa.io/blog/2014/07/26/markov-chains/

Le message à retenir est qu'une représentation graphique d'un processus de Markov à espace discret en temps discret est un graphique général, qui représente une distribution sur des séquences de nœuds du graphique (étant donné un nœud de départ ou une distribution de départ sur les nœuds).

D'un autre côté, un réseau bayésien est un DAG ( Directed Acyclic Graph ) qui représente une factorisation d'une certaine distribution de probabilité conjointe. Habituellement, cette représentation essaie de prendre en compte l'indépendance conditionnelle entre certaines variables, de simplifier le graphique et de diminuer le nombre de paramètres nécessaires pour estimer la distribution de probabilité conjointe.

— sjm.majewski
source

3

Pendant que je cherchais une réponse à la même question, je suis tombé sur ces réponses. Mais aucun d'entre eux ne clarifie le sujet. Quand j'ai trouvé de bonnes explications, j'ai voulu partager avec des gens qui pensaient comme moi.

Dans le livre "Raisonnement probabiliste dans les systèmes intelligents: Réseaux d'inférence plausible" écrit par Judea Pearl, chapitre 3: Réseaux de Markov et Bayésien: Deux représentations graphiques de la connaissance probabiliste, p.116:

La principale faiblesse des réseaux de Markov est leur incapacité à représenter les dépendances induites et non transitives; deux variables indépendantes seront directement connectées par un bord, simplement parce qu'une autre variable dépend des deux. En conséquence, de nombreuses indépendances utiles ne sont pas représentées dans le réseau. Pour surmonter cette lacune, les réseaux bayésiens utilisent le langage plus riche des graphes dirigés , où les directions des flèches nous permettent de distinguer les dépendances authentiques des dépendances parasites induites par des observations hypothétiques.

— Vezir
source

1

Un processus de Markov est un processus stochastique avec la propriété Markovian (lorsque l'indice est le temps, la propriété Markovian est une indépendance conditionnelle spéciale, qui dit que le présent, le passé et le futur sont indépendants).

Un réseau bayésien est un modèle graphique dirigé. (Un champ aléatoire de Markov est un modèle graphique non orienté.) Un modèle graphique capture l'indépendance conditionnelle, qui peut être différente de la propriété markovienne.

Je ne connais pas les modèles graphiques, mais je pense qu'un modèle graphique peut être considéré comme un processus stochastique.

— Tim
source

1

-L'idée générale de tout processus de Markov est que "étant donné le présent, l'avenir est indépendant du passé".

-L'idée générale de toute méthode bayésienne est que "étant donné le passé, le futur est indépendant du passé", ses paramètres, s'ils sont indexés par des observations, suivront un processus de Markov

PLUS

"Tout ce qui suit sera le même dans la façon dont je mets à jour mes croyances

vous me donnez de nouvelles informations A, alors vous me donnez de nouvelles informations B,
vous me donnez de nouvelles informations B, puis de nouvelles informations A
vous me donnez A et B ensemble "

Donc, ses paramètres seront vraiment un processus de Markov indexé par le temps, et non par des observations

— Nicolas
source