Si «la corrélation n'implique pas de causalité», alors si je trouve une corrélation statistiquement significative, comment puis-je prouver la causalité?


30

Je comprends que la corrélation n'est pas une causalité . Supposons que nous obtenions une forte corrélation entre deux variables. Comment vérifiez-vous si cette corrélation est réellement causale? Ou, dans quelles conditions, exactement, pouvons-nous utiliser des données expérimentales pour déduire une relation causale entre deux ou plusieurs variables?


2
Cela nécessitera des données expérimentales. Veuillez décrire la conception expérimentale à laquelle vous vous référez.
Frank Harrell

1
Monsieur, je n'ai pas de données expérimentales. Je voulais comprendre quel type d'expériences contrôlées doivent être effectuées pour déduire la causalité?
Manish Barnwal

4
Il existe de nombreux modèles possibles. En bref, vous essayez de contrôler physiquement toutes les autres variables et de faire varier le seul facteur d'intérêt, ou vous randomisez l'application de la manipulation expérimentale, qui "fait la moyenne" des effets de toutes les autres explications possibles.
Frank Harrell

2
En bref, vous avez besoin d'une sorte de variation exogène.
abaumann

1
Entre corrélé Xet Ychoisir celui-là comme cause de l'autre qui minimisera le sentiment de responsabilité et maximisera le sentiment du destin.
ttnphns

Réponses:


16

Une raison très probable de la corrélation de 2 variables est que leurs changements sont liés à une troisième variable. D'autres raisons probables sont le hasard (si vous testez suffisamment de variables non corrélées pour la corrélation, certaines montreront une corrélation) ou des mécanismes très complexes qui impliquent plusieurs étapes.

Voir http://tylervigen.com/ pour des exemples comme celui-ci:

entrez la description de l'image ici

Pour énoncer en toute confiance la causalité de A -> B, vous avez besoin d'une expérience où vous pouvez contrôler la variable A et ne pas influencer les autres variables. Ensuite, vous mesurez si la corrélation de A et B existe toujours si vous modifiez votre variable.

Pour presque toutes les applications pratiques, il n'est presque pas possible de ne pas influencer également d'autres variables (souvent inconnues), donc le mieux que nous puissions faire est de prouver l'absence de causalité.

Pour pouvoir énoncer une relation causale, vous commencez avec l'hypothèse que 2 variables ont une relation causale, utilisez une expérience pour réfuter l'hypothèse et si vous échouez, vous pouvez affirmer avec un degré de certitude que l'hypothèse est vraie. La hauteur de votre degré de certitude dépend de votre domaine de recherche.

Dans de nombreux domaines, il est courant ou nécessaire d'exécuter 2 parties de votre expérience en parallèle, une où la variable A est modifiée et un groupe de contrôle où la variable A n'est pas modifiée, mais l'expérience est par ailleurs exactement la même - par exemple en cas de médicament, vous continuez de coller des sujets avec une aiguille ou de leur faire avaler des comprimés. Si l'expérience montre une corrélation entre A et B, mais pas entre A et B '(B du groupe témoin), vous pouvez supposer un lien de causalité.

Il existe également d'autres moyens de conclure à la causalité, si une expérience n'est pas possible ou déconseillée pour diverses raisons (morale, éthique, RP, coût, temps). Une façon courante consiste à utiliser la déduction. Prenons un exemple d'un commentaire: pour prouver que le tabagisme provoque le cancer chez l'homme, nous pouvons utiliser une expérience pour prouver que le tabagisme provoque le cancer chez la souris, puis prouver qu'il existe une corrélation entre le tabagisme et le cancer chez l'homme, et en déduire que c'est donc extrêmement probable que le tabagisme provoque le cancer chez l'homme - cette preuve peut être renforcée si nous réfutons également que le cancer provoque le tabagisme. Une autre façon de conclure à la causalité est l'exclusion d'autres causes de la corrélation, laissant la causalité comme la meilleure explication restante de la corrélation - cette méthode n'est pas toujours applicable, car il est parfois impossible d'éliminer toutes les causes possibles de la corrélation (appelées "chemins de porte dérobée" dans une autre réponse). Dans l'exemple tabagisme / cancer, nous pourrions probablement utiliser cette approche pour prouver que le tabagisme est responsable du goudron dans les poumons, car il n'y a pas beaucoup de sources possibles pour cela.

Ces autres façons de «prouver» la causalité ne sont pas toujours idéales d'un point de vue scientifique, car elles ne sont pas aussi concluantes qu'une expérience plus simple. Le débat sur le réchauffement climatique est un excellent exemple pour montrer comment il est beaucoup plus facile de rejeter le lien de causalité qui n'a pas encore été prouvé de manière concluante avec une expérience reproductible.

Pour le soulagement comique, voici un exemple d'expérience qui est techniquement plausible, mais déconseillée pour des raisons non scientifiques (morale, éthique, relations publiques, coût):

Image prise à partir de phroyd.tumblr.com


3
C'est une condition trop forte. En épidémiologie, les exigences sont moins strictes car le contrôle d'une expérience est au mieux impraticable, et au pire contraire à l'éthique - "le tabagisme cause-t-il le cancer"
user295691

2
L'exemple que Pearl donne pour montrer que le tabagisme provoque le cancer chez l'homme est la méthode de la porte d'entrée par laquelle le goudron est considéré comme une variable intermédiaire entre le tabagisme et le cancer. Je ne sais pas ce que vous entendez par "pas idéal". C'est certainement plus idéal que de forcer les gens à fumer et de voir s'ils ont un cancer!
Neil G

1
@Neil "C'est certainement plus idéal que de forcer les gens à fumer et à voir s'ils ont un cancer" - Si le but est de prouver une relation causale, je suis fortement en désaccord. D'un autre côté, si l'objectif est d'éviter un problème éthique, un financement réduit ou une lynchage, alors c'est plus idéal, oui.
Peter

10

Que la conception soit expérimentale ou observationnelle, une association entre une variable A et un résultat Y reflète une relation de cause à effet entre A et Y s'il n'y a pas de voies d'accès ouvertes entre A et Y.

Dans une conception expérimentale, cela est plus facilement réalisé par randomisation de l'exposition ou de l'attribution du traitement. Sauf randomisation idéale, l'effet du traitement associatif est une estimation non biaisée de l'effet du traitement causal sous les hypothèses d'échangeabilité (l'attribution du traitement est indépendante des résultats contrefactuels), la positivité, etc.

Les références

Hernan, Robins. Perle d' inférence causale
. Inférence causale dans les statistiques: un aperçu

PS Vous pouvez rechercher sur Google l'inférence causale et les noms suivants (pour commencer) pour plus d'informations sur le sujet: Judea Pearl, Donald Rubin, Miguil Hernan.


Jetez un œil ici: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Je contredit la déclaration d'Ash: que la conception soit expérimentale ou observationnelle, une association entre une variable A et un résultat Y reflète une relation causale entre A et Y s'il y a pas de voies d'accès dérobées ouvertes entre A et Y. Par exemple, ventes de glaces A, décès Y dans les piscines; sont corrélés, mais la cause de leur augmentation ou de leur diminution est la température. Peut-être que Ash signifie avec des chemins de porte dérobée ouverts à la fois en fonction d'une troisième variable, mais sa formulation n'est pas très claire.
Karl

Le chemin de la porte arrière dans votre exemple est la saison. Un chemin de porte dérobée signifie une troisième variable.
Neil G

Pour ceux qui ne connaissent pas les contributions de Judea Pearl à l'étude de la causalité, il pourrait être utile de lire sa biographie sur le site Web de l'Association for Computing Machinery, qui lui a décerné le prix Turing 2011. Pearl discute de la nécessité d'inclure plus de discussion sur l'inférence causale dans les programmes d'enseignement de la statistique dans une interview avec Amstat News .
jthetzel

Les commentaires ne sont pas pour une discussion approfondie; cette conversation a été déplacée vers le chat .
gung - Rétablir Monica

3

Considérons une augmentation du taux de divorce, corrélée à une augmentation du revenu des avocats.

Intuitivement, il semble évident que ces mesures devraient être corrélées. Plus de couples (demande) demandent plus de divorces, donc plus d'avocats (offre) augmentent leurs prix.

Il semble qu'une augmentation du taux de divorce entraîne une augmentation des revenus des avocats, car la demande supplémentaire des couples a poussé les avocats à augmenter leurs prix.

Ou est-ce à l'envers? Et si les avocats augmentaient intentionnellement et indépendamment leurs prix, puis dépensaient leurs nouveaux revenus dans des annonces de divorce? Cela semble également être une explication plausible.

Ce scénario illustre le nombre arbitraire de troisièmes variables explicatives qu'une analyse statistique peut présenter. Considérer ce qui suit:

  1. Vous ne pouvez pas mesurer chaque point de données,
  2. Vous voulez éliminer tous les points de données non explicatifs,
  3. Vous ne pouvez justifier pourquoi éliminer un point de données que si vous le mesurez.

Vous avez une énigme. Vous ne pouvez pas mesurer chaque point de données, si vous voulez justifier d'ignorer les points de données non explicatifs, vous devez les mesurer. (Vous pouvez éliminer certains points de données sans les mesurer, mais vous devez au moins les justifier.)

Aucune preuve de causalité ne peut être correcte dans un système illimité.


2

Si A et B sont corrélés, et après avoir exclu la coïncidence, il est très probable que A cause B, ou B cause A, ou qu'une cause X peut-être inconnue cause à la fois A et B.

La première étape serait d'examiner un mécanisme possible. Pourriez-vous penser à la façon dont A pourrait caser B, ou vice versa, ou quel autre type de cause X pourrait causer les deux? (Cela suppose que cet examen est moins cher que d'effectuer une expérience essayant de prouver une cause). J'espère que vous vous retrouvez dans une position où une expérience pour montrer la causalité semble utile. Vous pouvez continuer si vous ne pensez pas à un mécanisme (A provoque B mais nous n'avons aucune idée pourquoi est une possibilité).

Dans cette expérience, vous devez être capable de manipuler la cause suspectée à volonté (par exemple, si la cause "prend la pilule A", alors certaines personnes recevront la pilule, d'autres non). Ensuite, vous prenez les précautions habituelles, en choisissant les personnes qui reçoivent ou non la pilule au hasard, ni vous ni les personnes testées ne sachant qui a obtenu la pilule et qui ne l'a pas reçue. Vous essayez également de garder le reste de l'expérience égal (donner la pilule A aux personnes dans une belle pièce chaude avec du soleil venant par la fenêtre tandis que l'autre groupe reçoit une fausse pilule dans une pièce sale et inconfortable pourrait affecter vos données). Donc, si vous avez conclu que la seule différence est cette pilule, et que la raison pour laquelle vous avez obtenu ou non la pilule était une décision aléatoire qui n'a rien affecté d'autre,


2

Les données interventionnelles (expérimentales) décrites par gnasher et Peter sont le moyen le plus simple de présenter un bon argument en faveur d'une relation causale. Cependant, seule la réponse d'Ash mentionne la possibilité de déduire une relation causale via des données d'observation. En plus de la méthode de la porte dérobée qu'il mentionne, la méthode de la porte d'entrée est un autre moyen d'établir la causalité sur la base de données d'observation et de certaines hypothèses causales. Ceux-ci ont été découverts par Judea Pearl. J'ai essayé de résumer et de fournir une référence à ces éléments ici .


0

Pour faire une déclaration de cause à effet, vous devez avoir à la fois un échantillonnage aléatoire et une affectation aléatoire

  • Échantillonnage aléatoire: chaque individu a une probabilité égale d'être sélectionné pour l'étude
  • Affectation aléatoire: chaque individu dans l'expérience montre un trait légèrement différent.

Ainsi, lors de la sélection d'un traitement et d'un groupe témoin dans le groupe échantillonné ci-dessus, un nombre égal de personnes ayant un trait similaire devrait être à la fois dans le traitement et dans le groupe témoin.

Le groupe de traitement est le groupe dans lequel le médicament est administré aux personnes. Le groupe témoin est le groupe dans lequel le médicament n'est pas administré. Vous pouvez également définir un groupe placebo où les sujets ne reçoivent pas de médicament mais sont informés qu'ils sont donnés.

Enfin, si les effets sont visibles dans le groupe de traitement mais pas dans le groupe témoin, alors nous pouvons établir la causalité.


À mon avis, le groupe placebo est absolument nécessaire. De plus, les personnes chargées de manipuler les sujets testés ne doivent pas savoir qui appartient à quel groupe ("en double aveugle"). Quoi que ce soit de moins, je considérerais certainement peu fiable. Les tests ne sont pas faciles.
mafu

Les essais contrôlés randomisés avec placebo sont plus authentiques que les essais contrôlés randomisés, mais des déclarations de causalité pourraient être faites en utilisant des essais contrôlés randomisés
show_stopper

2
"Pour faire une déclaration causale, vous devez avoir à la fois un échantillonnage aléatoire et une affectation aléatoire" - ce n'est pas vrai. Voir les méthodes de porte d'entrée et de porte arrière.
Neil G
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.