Quelle est la différence entre un champ aléatoire de Markov et un champ aléatoire conditionnel?


19

Réponses:


11

Ok, j'ai trouvé la réponse moi-même:

Les champs aléatoires conditinaux (CRF) sont un cas particulier des champs aléatoires de Markov (MRF).

1.5.4 Champ aléatoire conditionnel

Un champ aléatoire conditionnel (CRF) est une forme de MRF qui définit un postérieur pour les variables x données données z, comme avec le MRF caché ci-dessus. Contrairement au MRF caché, cependant, la factorisation dans la distribution de données P (x | z) et le P (x) précédent n'est pas rendue explicite [288]. Cela permet d'écrire des dépendances complexes de x sur z directement dans la distribution postérieure, sans que la factorisation soit explicite. (Étant donné P (x | z), de telles factorisations existent toujours, cependant - infiniment beaucoup d'entre elles, en fait - donc il n'y a aucune suggestion que le CRF est plus général que le MRF caché, seulement qu'il peut être plus commode de traiter avec .)

Source: Blake, Kohli et Rother: champs aléatoires de Markov pour le traitement de la vision et de l'image. 2011.

Un champ aléatoire conditionnel ou CRF (Lafferty et al. 2001), parfois un champ aléatoire discriminant (Kumar et Hebert 2003), n'est qu'une version d'un MRF où tous les potentiels de clique sont conditionnés par des caractéristiques d'entrée: [...]

L'avantage d'un CRF sur un MRF est analogue à l'avantage d'un classificateur discriminant sur un classificateur génératif (voir Section 8.6), à savoir, nous n'avons pas besoin de «gaspiller des ressources» en modélisant des choses que nous observons toujours. [...]

L'inconvénient des CRF par rapport aux MRF est qu'ils nécessitent des données de formation étiquetées et qu'ils sont plus lents à s'entraîner [...]

Source: Kevin P. Murphy: Apprentissage automatique: une perspective probabiliste

Répondre à ma question:

Si je fixe les valeurs des nœuds observés d'un MRF, devient-il un CRF?

Oui. Fixer les valeurs revient à les conditionner. Cependant, vous devez noter qu'il existe également des différences dans la formation.

Regarder de nombreuses conférences sur PGM (modèles graphiques probabilistes) sur coursera m'a beaucoup aidé.


0

MRF vs réseaux de Bayes : De manière imprécise (mais normalement) , il existe deux types de modèles graphiques: les modèles graphiques non dirigés et les modèles graphiques dirigés (un autre type, par exemple le graphique de Tanner). Le premier est également connu sous le nom de réseau Markov Random Fields / Markov et, plus tard, le réseau Bayes nets / Bayesian. (Parfois, les hypothèses d'indépendance des deux peuvent être représentées par des graphiques en accords)

Markov implique la façon dont il factorise et le champ aléatoire signifie une distribution particulière parmi celles définies par un modèle non orienté.

CRF MRF : lorsque certaines variables sont observées, nous pouvons utiliser la même représentation graphique non dirigée (comme les graphiques non dirigés) et le paramétrage pour coder une distribution conditionnelle P(Y|X)Y est un ensemble de variables cibles et X est un (disjoint ) ensemble de variables observées.

Et la seule différence réside dans le fait que pour un réseau de Markov standard, le terme de normalisation somme sur X et Y mais pour CRF, le terme somme sur seulement Y.

Référence:

  1. Modèles graphiques non dirigés (champs aléatoires de Markov)
  2. Principes et techniques des modèles graphiques probabilistes (2009, The MIT Press)
  3. Champs aléatoires de Markov

0

Comparons l'inférence conditionnelle dans les MRF à la modélisation à l'aide d'un CRF, en définissant les définitions en cours de route, puis abordons la question d'origine.

MRF

Un champ aléatoire de Markov (MRF) par rapport à un graphe G est

  1. un ensemble de variables aléatoires (ou "éléments" aléatoires si vous le souhaitez) correspondant aux nœuds de G (donc, un "champ aléatoire")
  2. GViVjViVjBiP({Vi}) G

Inférence conditionnelle sous un MRF

Puisqu'un MRF représente une distribution conjointe sur de nombreuses variables qui obéit aux contraintes de Markov, alors nous pouvons calculer des distributions de probabilité conditionnelles étant donné les valeurs observées de certaines variables.

Par exemple, si j'ai une distribution conjointe sur quatre variables aléatoires: IsRaining, SprinklerOn, SidewalkWet et GrassWet, alors lundi je pourrais vouloir déduire la distribution de probabilité conjointe sur IsRaining et SprinklerOn étant donné que j'ai observé SidewalkWet = False et GrassWet = Vrai. Mardi, je pourrais vouloir déduire la distribution de probabilité conjointe sur IsRaining et SprinklerOn étant donné que j'ai observé SidewalkWet = True et GrassWet = True.

En d'autres termes, nous pouvons utiliser le même modèle MRF pour faire des inférences dans ces deux situations différentes, mais nous ne dirions pas que nous avons changé le modèle. En fait, bien que nous ayons observé SidewalkWet et GrassWet dans les deux cas décrits ici, le MRF lui-même n'a pas de "variables observées" en soi --- toutes les variables ont le même statut aux yeux du MRF, donc le MRF modélise également, par exemple, la distribution conjointe de SidewalkWet et GrassWet.

CRF

G

  1. G{Xi}i=1n{Yi}i=1m
  2. P({Yi}i=1m|{Xi}i=1n)G

La différence

G

  1. désigne un sous-ensemble de variables comme "observées"

  2. définit uniquement une distribution conditionnelle sur des variables observées données non observées; il ne modélise pas la probabilité des variables observées (si les distributions sont exprimées en termes de paramètres, cela est souvent vu comme un avantage car les paramètres ne sont pas gaspillés pour expliquer la probabilité de choses qui seront toujours connues)

  3. G

{Xi}GG{Yi}{Yi}{Xi}{Yi}{Xi} s.

Exemple

YiX1,X2,...Xn1Xn

linear chain MRF: X_1, X_2, ..., X_n, Y_1, Y_2, ..., Y_m

G{Xi}{Yi}{Xi} .

Conclusion

GGGGGG

Outre les économies potentielles des paramètres du modèle, l'expressivité accrue du modèle conditionnel et la rétention de l'efficacité de l'inférence, un dernier point important à propos de la recette CRF est que, pour les modèles discrets (et un grand sous-ensemble de modèles non discrets), malgré la l'expressivité de la famille CRF, la log-vraisemblance peut être exprimée comme une fonction convexe des paramètres de fonction permettant une optimisation globale avec descente de gradient.

Voir aussi: le papier CRF d'origine et ce tutoriel

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.