Comprendre la théorie de la séparation d dans les réseaux bayésiens causaux

15

J'essaie de comprendre la logique de séparation d dans les réseaux bayésiens causaux. Je sais comment fonctionne l'algorithme, mais je ne comprends pas exactement pourquoi le "flux d'informations" fonctionne comme indiqué dans l'algorithme.

entrez la description de l'image ici

Par exemple dans le graphique ci-dessus, supposons que l'on ne nous donne que X et qu'aucune autre variable n'a été observée. Ensuite selon les règles de la d-séparation, le flux d'information de X à D:

X influence A, qui est . C'est OK, puisque A cause X et si nous connaissons l'effet X, cela affecte notre croyance sur la cause A. Flux d'informations. $P(A)\neq P(A|X)$
X influence B, qui est . C'est OK, puisque A a été modifié par nos connaissances sur X, le changement en A peut également influencer nos croyances sur sa cause, B. $P(B)\neq P(B|X)$
X influence C, qui est . C'est correct parce que nous savons que B est biaisé par notre connaissance de son effet indirect, X, et puisque B est biaisé par X, cela influencera tous les effets directs et indirects de B. C est un effet direct de B et il est influencé par nos connaissances sur X. $P(C)\neq P(C|X)$

Eh bien, jusqu'à présent, tout est OK pour moi car le flux d'informations se produit selon des relations de cause à effet intuitives. Mais je n'obtiens pas le comportement spécial des soi-disant "structures en V" ou "collisionneurs" dans ce schéma. Selon la théorie de la séparation d, B et D sont les causes courantes de C dans le graphique ci-dessus et il dit que si nous n'avons pas observé C ou l'un de ses descendants, les informations de flux de X sont bloquées en C. Eh bien, OK , mais ma question est pourquoi?

À partir des trois étapes ci-dessus, à partir de X, nous avons vu que C est influencé par nos connaissances sur X et le flux d'informations s'est produit en fonction de la relation de cause à effet. La théorie de la d-séparation dit que nous ne pouvons pas passer de C à D car C n'est pas observé. Mais je pense que puisque nous savons que C est biaisé et que D est une cause de C, D devrait également être affecté alors que la théorie dit le contraire. Il me manque clairement quelque chose dans ma façon de penser, mais je ne vois pas ce que c'est.

J'ai donc besoin d'une explication de la raison pour laquelle le flux d'informations bloqué en C, si C n'est pas observé.

— Ufuk Can Bicici
source

Il ne coule pas de X à D, si seulement X est observé. Vous l'indiquez juste en dessous de l'image. (Bien que vous le décriviez correctement plus bas).

— ziggystar

Je le sais déjà, que le flux d'informations est bloqué en C où nous avons une "V-Structure". Ce que je veux savoir, c'est pourquoi; pourquoi une structure en V bloque le flux d'informations lorsque nous n'observons pas C, du point de vue de la relation de cause à effet.

— Ufuk Can Bicici

6

N'est-il pas intuitif que vous ne pouvez pas raisonner de cause en effet non observé à une autre cause? Si la pluie (B) et l'arroseur (D) sont des causes du sol mouillé (C), alors pouvez-vous affirmer que voir la pluie implique que le sol est probablement humide, et continuer à penser que l'arroseur doit être allumé depuis le sol est mouillé?! Bien sûr que non. Vous avez soutenu que le sol était humide à cause de la pluie - vous ne pouvez pas rechercher de causes supplémentaires!

Si vous observez le sol humide, bien sûr, la situation change. Maintenant, vous pouvez peut-être raisonner d'une cause à l'autre, comme l'explique Frank.

— Neil G
source

4

Oublions X un instant et considérons juste le collisionneur de B, C et D. La raison pour laquelle la structure en V peut bloquer le chemin entre B et D est que, en général, si vous avez deux variables aléatoires indépendantes (B et D) qui affectent le même résultat (C), alors connaître le résultat peut vous permettre de tirer des conclusions sur la relation entre les variables aléatoires, permettant ainsi un flux d'informations.

$P(B|D) \neq P(B)$ $P(D|B) \neq P(D)$ ). Par conséquent, sachant que la pelouse est mouillée débloque le chemin et rend B et D dépendants.

Pour mieux comprendre cela, il pourrait être utile de jeter un œil au paradoxe de Berkson , qui décrit la même situation.

— FrankD
source

1) J'ai du mal à comprendre ce qu'est une cause indépendante avant de définir quoi que ce soit à propos de la séparation D. De nombreux auteurs définissent la séparation D en utilisant des relations de cause à effet intuitives. J'essaie de construire un système de raisonnement basé sur ce que je lis à partir de différentes sources et basé sur mes intuitions afin de pouvoir accepter ce théorème. C'est comme ceci: "Si aucune variable n'est observée autre que X, alors la connaissance de X peut influencer les effets de X (tous les descendants), les causes directes ou indirectes de X (ancêtres) et tous les autres effets des causes de X".

— Ufuk Can Bicici

2) Je justifie cette pensée comme ça: A) X peut influencer ses effets directs et indirects, évidemment, puisque différentes valeurs X généreront des causes différentes. B) X peut influencer ses causes directes et indirectes car si nous observons un effet, nous pouvons obtenir de nouvelles informations sur les causes, dans une approche diagnostique. C) X influence les autres effets (à l'exclusion de lui-même) de toutes ses causes directes et indirectes, car la connaissance de X a changé nos croyances à propos de ces causes, lesquelles affectent à leur tour tous les effets. J'essaie d'interpréter ces réseaux bayésiens causaux avec ce modèle. Est-ce correct pour commencer?

— Ufuk Can Bicici

3) C'est comme si j'essayais de former un modèle intuitif de "flux d'information" pour comprendre les comportements d'indépendance et de dépendance des variables. Avec ce modèle, je ne peux pas voir ce qu'est une cause indépendante et c'est là que je suis coincé. De toute évidence, je manque quelque chose ou je peux me tromper totalement avec ce schéma de pensée.

— Ufuk Can Bicici

Je pense que ma réponse originale était légèrement trompeuse, parce que je parlais de B et D comme de «causes» (corrigées maintenant). Le flux d'information est un concept lié aux observations et non aux interventions causales. Comme vous le savez, deux variables aléatoires sont indépendantes si l'observation d'une ne vous donne aucune information sur la seconde. Vos déclarations semblent confondre l'observation et l'inférence. L'observation de X nous permet d'ajuster notre inférence de ses parents (énoncé A) et ses causes directes, mais si une structure en V bloque le chemin, nous ne pouvons pas ajuster l'inférence pour des causes indirectes, pour les raisons décrites ci-dessus.

— FrankD

1

Eh bien, jusqu'à présent, tout est OK pour moi car le flux d'informations se produit selon des relations de cause à effet intuitives. Mais je n'obtiens pas le comportement spécial des soi-disant "structures en V" ou "collisionneurs" dans ce schéma.

Ensuite, l'écrou dur à craquer est la structure en V. Je voudrais illustrer la différence entre la probabilité d'une variable S conditionnée uniquement à l'observation de l'effet et l' influence de l'observation d'une autre variable D indépendante de S dans la même situation à l' aide d'un exemple fictif.

Disons que quelqu'un suit un cours, disons l'algèbre linéaire. S'il réussit, cela dépend principalement de la difficulté de l'examen. Notons l'événement de réussite du cours par P, passant comme 1 et 0 sinon; et la difficulté de l'examen comme D, difficile comme 1 et facile comme 0. Et quelque chose de non-sens peut également exercer une influence sur sa performance ou le résultat, disons que la singularité se produit et qu'il serait soumis à un lavage de cerveau par une machine et décide ensuite de ne pas passer l'examen. Nous notons cet événement par S, et sa probabilité est de 0,0001. Cela semble impossible mais par définition, sa chance ne doit pas être nulle.

Par conséquent, nous avons maintenant un graphique de la forme de la structure en v:

 D   S
  | |
 \| |/ 
   P

$P(\neg P|S) = 0.999999$ $P(P|S)=0.000001$

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001|

$P(S|P)$ $P(S|P, D)$

1) Si nous ne connaissons pas le résultat, nous pouvons calculer la probabilité que la singularité se produise étant donné que le cours est facile.

\begin{aligned} P (S | \neg D) & = P (S, P | \neg D) + P (S, \neg P | \neg D) \\ = \frac{P (S = 1, P = 1, D = 0)}{P (D = 0)} + \frac{P (S = 1, P = 0, D = 0)}{P (D = 0)} \\ = \frac{P (S = 1) P (D = 0 | S = 1) P (P = 1 | D = 0, S = 1)}{P (D = 0)} + \frac{P (S = 1) P (D = 0 | S = 1) P (P = 0 | D = 0, S = 1)}{P (D = 0)} \\ = \frac{P (S = 1) P (D = 0 | S = 1)}{P (D = 0)} \\ = \frac{P (S = 1) P (D = 0)}{P (D = 0)} \\ = P (S = 1) \\ = 0.0001 \end{aligned}

$\begin{align} P(S|\neg D) & = P(S, P|\neg D)+P(S, \neg P| \neg D) \\ & = \frac{P(S=1, P=1, D=0)}{P(D=0)} + \frac{P(S=1, P=0, D=0)}{P(D=0)} \\ & = \frac{P(S=1)P(D=0|S=1)P(P=1|D=0,S=1)}{P(D=0)} + \frac{P(S=1)P(D=0|S=1)P(P=0|D=0,S=1)}{P(D=0)} \\ & = \frac{P(S=1)P(D=0|S=1)}{P(D=0)} \\ & = \frac{P(S=1)P(D=0)}{P(D=0)} \\ & = P(S=1) \\ & = 0.0001 \end{align}$

Comme vous pouvez le voir ci-dessus, peu importe que l'examen soit réussi ou non. Ce qui vient comme il se doit. Elle peut être considérée comme une probabilité marginale sur P.

Et nous pouvons également déterminer la probabilité que la singularité se produise étant donné que l'étudiant ne réussit pas l'examen:

\begin{aligned} P (S, | \neg P) & = \frac{P (S, \neg P)}{P (\neg P)} \\ = \frac{P (S, \neg p, D) + P (S, \neg P, \neg D)}{P (\neg P)} \\ = \frac{P (\neg P | S, D) P (S) P (D) + P (\neg P | S, \neg D) P (S) P (\neg D)}{\sum_{S, D} P (\neg P | S, D) P (S) P (D)} \\ = 0.0001818 \end{aligned}

$\begin{align} P(S, |\neg P) &= \frac{P(S,\neg P)}{P(\neg P)} \\ &= \frac{P(S,\neg p, D) + P(S,\neg P, \neg D)}{P(\neg P)}\\ &= \frac{P(\neg P|S, D) P(S) P(D)+P(\neg P|S, \neg D)P(S)P(\neg D)}{\sum_{S,D}P(\neg P |S,D)P(S)P(D) }\\ &= 0.0001818 \end{align}$

Sachant que le gars ne réussit pas l'examen, nous pouvons deviner qu'il peut être soumis à un lavage de cerveau par une machine est 0,0001818, ce qui est un peu plus grand que lorsque nous ne le savons pas.

\begin{aligned} P (S, | \neg P, \neg D) & = \frac{P (S = 1, P = 0, D = 0)}{P (P = 0, D = 0)} \\ = \frac{P (P = 0 | S = 1, D = 0) P (S = 1) P (D = 0)}{P (P = 0 | S = 1, D = 0) P (S = 1) P (D = 0) + P (P = 0 | S = 0, D = 0) P (S = 0) P (D = 0)} \\ = \frac{0.999999 \times 0.0001 \times 0.5}{0.2 \times 0.9999 \times 0.5 + 0.999999 \times 0.0001 \times 0.5} \\ = 0.0004998 \end{aligned}

$\begin{align} P(S, |\neg P, \neg D) &= \frac{P(S=1, P=0, D=0)}{P(P=0, D=0)} \\ & = \frac{P(P=0|S=1, D=0)P(S=1)P(D=0)}{P(P=0|S=1, D=0)P(S=1)P(D=0)+P(P=0|S=0, D=0)P(S=0)P(D=0)} \\ & = \frac{0.999999 \times 0.0001 \times 0.5}{0.2 \times 0.9999 \times 0.5+0.999999 \times 0.0001 \times 0.5} \\ & = 0.0004998 \end{align}$

$P(S|P) \neq P(S|P, D)$ $S \perp D | P \notin I(P(P, S, D))$

Puisse cette dérivation détaillée être de hlep.

— Lerner Zhang
source