Problèmes de causalité de Judea Pearl Book

12

Je commence à lire Causal Inference in Statistics, A Primer de Judea Pearl et. Al. J'ai une maîtrise en mathématiques, mais je n'ai jamais suivi de cours de statistique. Je suis un peu confus par l'une des premières questions de l'étude, et je ne peux poser aucune question à ce sujet, alors j'espère que quelqu'un sur ce site critiquera mes réponses pour moi. (Ce n'est pas un problème de devoirs. Je suis un retraité, je garde simplement mon esprit actif.) Notez qu'aucune donnée spécifique n'est donnée dans les problèmes.

a) Il existe deux traitements pour les calculs rénaux, le traitement A et le traitement B. Les médecins sont plus susceptibles de prescrire le traitement A sur les grosses pierres (et donc plus sévères) et plus susceptibles de prescrire le traitement B sur les petites pierres. Un patient qui ne connaît pas la taille de sa pierre doit-il examiner les données de la population générale ou les données spécifiques à la taille pour déterminer quel traitement sera le plus efficace?

b) Il y a deux médecins dans une petite ville. Chacun a effectué 100 chirurgies au cours de sa carrière, qui sont de deux types: une opération très facile et une opération très difficile. Le premier médecin effectue la chirurgie facile beaucoup plus souvent que la chirurgie difficile et le second effectue la chirurgie difficile plus souvent que la chirurgie facile. Vous avez besoin d'une intervention chirurgicale, mais vous ne savez pas si votre cas est facile ou difficile. Devriez-vous consulter le taux de réussite de chaque médecin pour tous les cas, ou devriez-vous consulter séparément les taux de réussite pour les cas faciles et difficiles, afin de maximiser les chances de réussite d'une opération?

Quant à la partie a), il est raisonnable de supposer qu'il y a des inconvénients au traitement A par rapport au traitement B, ou pourquoi n'est-il pas prescrit tout le temps? Donc, il me semble que je ne peux pas prendre une décision intelligente sans connaître la taille de mon calcul rénal. Je m'attendrais à ce que les données montrent que le traitement A soit plus efficace sur les grosses pierres et au moins aussi efficace sur les petites pierres, mais je ne voudrais pas assumer les risques présumés du traitement A si ma pierre est petite. En supposant que les petites pierres peuvent presque toujours être traitées avec succès, je m'attendrais à ce que le traitement B montre un taux de réussite plus élevé dans la population générale, mais je ne voudrais pas adopter le traitement B si j'ai une grosse pierre.

Il me semble que les données sont inutiles sauf si je connais la taille de ma pierre. Est-ce la réponse à la question, peut-être? Le tout semble plutôt inutile, car je ne peux pas aller en pharmacie et acheter l'un ou l'autre des traitements en vente libre. Mon médecin le prescrira et s'il ne peut pas (ou ne veut pas) me dire la taille de la pierre, je changerai de médecin.

En ce qui concerne la partie b), il est clair que vous souhaitez examiner les tarifs des procédures séparément, mais les tarifs seuls ne suffisent pas. Supposons que le premier médecin n'ait effectué la chirurgie difficile qu'une seule fois, avec un résultat positif, et que le deuxième médecin l'ait effectuée 37 fois, avec 35 succès. Je serais terriblement enclin à aller avec le deuxième médecin, mais je voudrais savoir comment 35 sur 37 se comparent aux normes nationales, et aussi si les 2 échecs se sont produits au début de sa carrière (alors qu'il apprenait encore) ou plus récemment ( après avoir commencé à boire beaucoup).

Est-ce ce genre de discussion que réclament les problèmes, ou une réponse plus tranchée est-elle attendue? Si j'ai la chance d'avoir un instructeur lu, comment évalueriez-vous ma réponse?

causality

— saulspatz
source

9

Permettez-moi d'abord de dire que si je notais vos questions, je vous donnerais une excellente note. Ce sont les questions introductives du livre, vous n'avez donc pas encore tous les outils pour réfléchir aux problèmes, mais vous montrez déjà que vous savez que vous devez prendre en compte les informations causales pour y répondre.

Maintenant, en ce qui concerne la réponse, notez que la question vous demande si vous voulez regarder les données agrégées ou les données séparées. Il s'avère que dans les deux cas, vous souhaitez consulter les données séparées.

Dans la question A, la taille de la pierre affecte à la fois le choix du traitement et l'état de santé. Par conséquent, vous avez besoin des données séparées pour éliminer ce biais et déterminer quel traitement est le plus efficace, soit conditionnellement soit inconditionnellement. Pour savoir quel traitement est inconditionnellement meilleur, vous avez besoin des données séparées pour obtenir l'effet causal moyen pondéré par la probabilité de taille de pierre $P(Y = 1|do(T)) = \sum_{S}P(Y = 1|T, S)P(S) \neq P(Y =1 |T)$ , où $Y$ est l'état de santé, $T$ choix de traitement et $S$ taille de pierre. Si vous voulez savoir quel traitement est le mieux conditionnellement, il est clair que vous avez également besoin du tableau séparé.

S'il est étrange de penser à choisir un traitement pour vous-même sans connaître la taille de la pierre, il sera peut-être plus facile de comprendre la question analogue d'avoir à choisir un seul traitement pour une population entière (par exemple, pour des raisons techniques / budgétaires, vous ne pouvez pas choisir tous les deux). Dans ce cas, vous voulez savoir lequel a le plus fort effet de traitement moyen sur la population dans son ensemble.

La question B est un problème similaire, la difficulté est un facteur de confusion, vous avez donc besoin du tableau séparé pour savoir quel médecin est le meilleur, à la fois sous condition et sans condition. Votre point sur la taille de l'échantillon est tout à fait valable, dans la vie réelle, vous devez toujours tenir compte de l'incertitude de l'échantillon --- mais notez que cela ne change pas le fait que vous auriez toujours besoin des informations des données séparées.

Concernant votre dernier commentaire,

si les 2 échecs sont survenus au début de sa carrière (alors qu'il apprenait encore) ou plus récemment (après avoir commencé à boire beaucoup).

Elle touche en fait un problème profond d'inférence causale, qui est l'hypothèse d' invariance . Prenons le cas où le médecin a commencé à boire beaucoup tout à l'heure. Dans ce cas, les données avant et après cet événement ne proviennent pas du même modèle causal --- vous aurez donc réellement besoin de plus d'informations et d'hypothèses causales pour faire une inférence dans ce cas.

— Carlos Cinelli
source

2

Merci. Vos remarques sur le premier problème ont été particulièrement clarifiées.

— saulspatz

3

J'ai lu Pearl's Causality , 2nd ed (2009) mais pas le Primer auquel vous vous référez ici. Vous semblez aborder ces questions d'étude avec exactement la bonne mentalité. Vous obtenez vos propres connaissances de base pour remplir ces scénarios avec des informations causales essentielles . Vous attaquez également directement ce qui me semble assez pervers des problèmes de décision tels qu'ils sont présentés, et vous vous efforcez de les remplacer par des problèmes plus significatifs et réalistes.

— David C. Norris
source

2

+1 pour l'expression "vaniteux assez pervers". Bien sûr, les problèmes de manuels ne sont jamais entièrement réalistes, pour des raisons évidentes, mais je ne savais pas à quel point ils étaient censés être réalistes. Je suppose que les choses deviendront plus claires à mesure que je continuerai à lire.

— saulspatz