Quelle est la définition mathématique d'une relation causale entre deux variables aléatoires?
Mathématiquement, un modèle causal consiste en des relations fonctionnelles entre variables. Par exemple, considérons le système d'équations structurelles ci-dessous:
x=fx(ϵx)y=fy(x,ϵy)
Cela signifie que détermine fonctionnellement la valeur de (si vous intervenez sur cela change les valeurs de ) mais pas l'inverse. Graphiquement, ceci est généralement représenté par , ce qui signifie que entre dans l'équation structurelle de y. En complément, vous pouvez également exprimer un modèle causal en termes de distributions conjointes de variables contrefactuelles, qui est mathématiquement équivalent aux modèles fonctionnels .xyxyx→yx
Étant donné un échantillon de la distribution conjointe de deux variables aléatoires X et Y, quand dirions-nous que X cause Y?
Parfois (ou la plupart du temps) vous ne connaissez pas la forme des équations structurelles ,fxfy x→yy→xp(y,x) , ni même si ou . La seule information dont vous disposez est la distribution de probabilité conjointe (ou des échantillons de cette distribution).x→yy→xp(y,x)
Cela conduit à votre question: quand puis-je récupérer le sens de la causalité uniquement à partir des données? Ou, plus précisément, quand puis-je récupérer si x entre dans l'équation structurelle de y ou vice-versa, uniquement à partir des données?
Bien sûr, sans hypothèses fondamentalement non vérifiables sur le modèle causal, cela est impossible . Le problème est que plusieurs modèles de causalité différents peuvent entraîner la même distribution de probabilité conjointe des variables observées. L'exemple le plus courant est un système linéaire causal avec bruit gaussien.
Mais sous certaines hypothèses causales, cela pourrait être possible - et c'est sur cela que la littérature sur la découverte causale travaille. Si vous n'avez aucune exposition préalable à ce sujet, vous voudrez peut-être commencer par Elements of Causal Inference de Peters, Janzing et Scholkopf, ainsi que le chapitre 2 de Causality de Judea Pearl. Nous avons un sujet ici sur CV pour les références sur la découverte causale , mais nous n'avons pas encore beaucoup de références énumérées ici.
Par conséquent, il n'y a pas qu'une seule réponse à votre question, car cela dépend des hypothèses que l'on fait. L'article que vous mentionnez cite quelques exemples, comme l'hypothèse d'un modèle linéaire avec un bruit non gaussien . Ce cas est connu sous le nom de LINGAN (abréviation de modèle acyclique linéaire non gaussien), voici un exemple dans R
:
library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1
# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat")
# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
# [,1] [,2]
# [1,] . .
# [2,] TRUE .
Notez ici que nous avons un modèle causal linéaire avec un bruit non gaussien où x2 provoque x1 et lingam récupère correctement la direction causale. Cependant, notez que cela dépend essentiellement des hypothèses LINGAM.
Pour le cas de l'article que vous citez, ils font cette hypothèse spécifique (voir leur "postulat"):
Si x→y , la longueur de description minimale du mécanisme mappant X à Y est indépendante de la valeur de X, tandis que la longueur de description minimale du mécanisme mappant Y à X dépend de la valeur de Y.
Notez qu'il s'agit d'une hypothèse. C'est ce que nous appellerions leur "condition d'identification". Essentiellement, le postulat impose des restrictions sur la distribution conjointe p(x,y) . C'est-à-dire que le postulat dit que si x→y certaines restrictions s'appliquent aux données, et si y→x autres restrictions s'appliquent. Ces types de restrictions qui ont des implications testables (imposent des contraintes sur p(y,x) ) sont ce qui permet de récupérer de manière directionnelle à partir de données d'observation.
Enfin, les résultats de la découverte causale sont encore très limités et dépendent d'hypothèses solides, soyez prudent lorsque vous les appliquez au contexte réel.