Quand la corrélation peut-elle être utile sans causalité?


27

Un animal de compagnie disant de nombreux statisticiens est "La corrélation n'implique pas la causalité." C'est certainement vrai, mais une chose qui semble implicite ici est que la corrélation a peu ou pas de valeur. Est-ce vrai? Est-il inutile de savoir que deux variables sont corrélées?

Je ne peux pas imaginer que ce soit le cas. Je ne suis pas horriblement familier avec l'analyse prédictive, mais il semble que si Xc'est un prédicteur de Y, il serait utile de prédire les valeurs futures de Ybasé sur X, indépendamment de la causalité.

Suis-je dans l'erreur de voir la valeur en corrélation? Et sinon, dans quelles situations un statisticien ou un data scientist peut-il utiliser la corrélation sans lien de causalité?


5
À mon avis, l'expression "causalité n'implique pas de corrélation" est souvent utilisée à mauvais escient pour signifier que les statistiques ne doivent pas toujours être fiables (vrai, mais pas toujours en raison du manque de causalité). J'aggrave tellement quand je vois des gens abandonner cette phrase en référence à la raison pour laquelle une analyse prédictive est erronée. Par exemple, facebook.com/notes/mike-develin/debunking-princeton/… est un excellent exemple à la fois d'une terrible analyse ET d'une terrible démystification d'une terrible analyse.
Cliff AB

10
Par exemple, supposons que vous trouviez que vivre dans une certaine ville est en corrélation avec une mort prématurée. Vous ne pouvez pas conclure que vivre dans cette ville provoque une mort prématurée, ni qu'amener les gens à quitter cette ville les aiderait à vivre plus longtemps. (Peut-être que la ville est attrayante pour les personnes malades, pour une raison quelconque.) Mais si vous êtes un actuaire, vous auriez parfaitement raison de vouloir facturer des primes d'assurance-vie plus élevées aux membres de cette ville - connaître cette corrélation pourrait être très précieux pour toi.
Nate Eldredge

2
Plus de gens meurent dans le sud de l'Angleterre, @NateEldredge. C'est parce que les gens y prennent leur retraite.
TRiG

1
L' absence de corrélation a plus de sens, sans doute.
Raphael

Référence xkcd obligatoire: xkcd.com/552
vsz

Réponses:


32

La corrélation (ou toute autre mesure d'association) est utile pour la prédiction indépendamment de la causalité. Supposons que vous mesuriez une association claire et stable entre deux variables. Cela signifie que connaître le niveau d'une variable vous fournit également des informations sur une autre variable d'intérêt, que vous pouvez utiliser pour aider à prédire une variable en fonction de l'autre et, surtout, prendre des mesures en fonction de cette prédiction . Prendre des mesures implique de modifier une ou plusieurs variables, par exemple lors de la formulation d'une recommandation automatisée ou de l'utilisation d'une intervention médicale. Bien sûr, vous pourriez faire de meilleures prévisions et agir plus efficacement si vous aviez une meilleure compréhension des relations directes ou indirectes entre deux variables. Cette perspicacité peut impliquer d'autres variables, y compris spatiales et temporelles.


4
Les corrélations ne sont pas toujours utiles pour la prédiction. En cas de causalité inverse, il existe des aspects temporels importants qui ne peuvent pas toujours être contrôlés. Nous nous heurtons constamment à cette maladie d'Alzheimer. Nous nous cognons constamment la tête contre le mur en essayant de discerner: les biomarqueurs que nous trouvons dans les cerveaux atteints de MA sont-ils à l'origine de la maladie ou causés par la maladie?
AdamO

1
@AdamO Je pense que ma réponse couvre cette base dans la dernière phrase ou deux, donc je ne suis pas en désaccord avec vous.
Brash Equilibrium

1
Le problème de causalité ne se pose en réalité que si vous essayez d'interpréter votre modèle prédictif. (Bien sûr, c'est ce qui nous intéresse souvent dans la science). Quand on voit que le biomarqueur Aest un très bon prédicteur, il est très tentant de prétendre que c'est aussi la cause de la maladie - Et comme mentionné dans les commentaires, il est très facile de tirer des conclusions erronées. Si nous voulons seulement faire des prédictions, par exemple dire si un patient a la maladie ou non, il n'y a pas de problèmes de corrélation.
CDDE

1
Ce n'est pas vrai et voici un exemple pourquoi. Si agir sur vos prévisions implique de changer une variable et s'attendre à ce que la cible change également, mais qu'il n'y ait en fait aucun lien direct ou que la relation de cause à effet va dans l'autre sens, alors vous prendrez la mauvaise action. Et avant de dire: "mais dans cet exemple, vous interprétez le modèle," je dis ", dans quel scénario ne tireriez-vous PAS l'inférence même d'un modèle destiné à la prédiction?" Réponse: lorsque vous ne faites pas beaucoup confiance aux relations causales que votre modèle implique.
Brash Equilibrium

1
@BrashEquilibrium: Il existe de nombreuses façons d'agir sur une prédiction qui n'impliquent aucune modification des variables utilisées pour obtenir la prédiction de quelque manière que ce soit. Vous souhaitez savoir si votre magasin devrait s'approvisionner en mitaines en laine? Savoir combien de crème glacée vous avez vendu récemment pourrait (en l'absence hypothétique de sources de données plus directes, bien sûr) faire un bon prédicteur.
Ilmari Karonen

17

Il y a déjà beaucoup de bons points ici. Permettez-moi de déballer votre affirmation selon laquelle "il semble que si Xest un prédicteur de Y, il serait utile de prédire un peu les valeurs futures de Ysur la base X, indépendamment de la causalité". Vous avez raison: si tout ce que vous voulez, c'est être capable de prédire une Yvaleur inconnue à partir d'une Xvaleur connue et d'une relation stable connue, le statut causal de cette relation n'est pas pertinent. Considérez que:

  • Vous pouvez prédire un effet à partir d'une cause. C'est intuitif et non controversé.
  • Vous pouvez également prédire une cause en connaissant un effet. Certaines personnes, mais très peu, atteintes d'un cancer du poumon n'ont jamais fumé. Par conséquent, si vous savez que quelqu'un a un cancer du poumon, vous pouvez prédire en toute confiance qu'il est / était un fumeur, malgré le fait que le tabagisme soit causal et que le cancer en soit l'effet. Si l'herbe dans la cour est mouillée et que l'arroseur n'a pas fonctionné, vous pouvez prédire qu'il a plu, même si la pluie est la cause et l'herbe mouillée n'est que l'effet. Etc.
  • Vous pouvez également prédire un effet inconnu à partir d'un effet connu de la même cause. Par exemple, si Billy et Bobby sont des jumeaux identiques, et que je n'ai jamais rencontré Billy, mais je sais que Bobby mesure 5 pi 10 po (178 cm), je peux prédire que Billy mesure également 178 cm avec une bonne confiance, malgré le fait que ni la hauteur de Billy ne cause la hauteur de Bobby ni la hauteur de Bobby ne cause la hauteur de Billy.

7
Juste pour donner des noms à vos catégories: Vos trois types de prédiction sont appelés (dans l'ordre) déduction , abduction et induction .
Neil G

12

Ils ne font pas caca sur l'importance de la corrélation. C'est juste que la tendance est d'interpréter la corrélation comme une causalité.

Prenez l'allaitement maternel comme exemple parfait. Les mères interprètent presque toujours les résultats (des études d'observation) sur l'allaitement maternel comme une suggestion quant à savoir si elles devraient réellement allaiter ou non. Il est vrai qu'en moyenne, les bébés qui sont allaités ont tendance à être des adultes en meilleure santé dans l'ordre, même après avoir pris en compte l'âge maternel et paternel longitudinal, le statut socioéconomique, etc. jouent en partie un rôle dans le développement précoce de la régulation de l'appétit. La relation est très complexe et l'on peut facilement spéculer sur toute une série de facteurs médiateurs qui pourraient être à l'origine des différences observées.

De nombreuses études se tournent vers les associations pour justifier une meilleure compréhension de ce qui se passe. La corrélation n'est pas inutile, elle est juste à plusieurs étapes sous le lien de causalité et il faut être attentif à la façon de signaler les résultats pour éviter une mauvaise interprétation de la part d'experts non experts.


9

Vous avez raison, la corrélation est utile. La raison pour laquelle les modèles causaux sont meilleurs que les modèles associatifs est que - comme le dit Pearl - ce sont des oracles pour les interventions. En d'autres termes, ils vous permettent de raisonner hypothétiquement. Un modèle causal répond à la question "si je devais réaliser X, qu'arriverait-il à Y?"

Mais vous n'avez pas toujours besoin de raisonner hypothétiquement. Si votre modèle ne sera utilisé que pour répondre à des questions telles que "si j'observe X, que sais-je de Y?", Alors un modèle d'association est tout ce dont vous avez besoin.


3
Oracles For Interventions serait un bon nom pour un groupe.
Malvolio

@Malvolio: lol, c'est une manière inoubliable et succincte de décrire les modèles causaux. J'aime vraiment cette phrase.
Neil G

4

Vous avez raison de dire que la corrélation est utile pour la prédiction. Il est également utile pour mieux comprendre le système étudié.

Un cas où la connaissance du mécanisme causal est nécessaire est si la distribution cible a été manipulée (par exemple, certaines variables ont été "forcées" de prendre certaines valeurs). Un modèle basé uniquement sur des corrélations fonctionnera mal, tandis qu'un modèle utilisant des informations causales devrait être beaucoup plus performant.


2

La corrélation est un outil utile si vous disposez d'un modèle sous-jacent qui explique la causalité.

Par exemple, si vous savez que l'application d'une force à un objet influence son mouvement, vous pouvez mesurer la corrélation entre la force et la vitesse et la force et l'accélération. La corrélation plus forte (avec l'accélération) sera explicative en elle-même.

Dans les études d'observation, la corrélation peut révéler certains modèles communs (comme l'allaitement maternel déclaré et la santé ultérieure) qui pourraient être un terrain pour une exploration scientifique plus approfondie via une conception expérimentale appropriée qui peut confirmer ou rejeter le lien de causalité (par exemple, peut-être au lieu de l'allaitement maternel, il pourrait être la cause conséquence pour un certain cadre culturel).

La corrélation peut donc être utile, mais elle peut rarement être concluante.


2

Comme vous l'avez dit, la corrélation seule a beaucoup d'utilité, principalement la prédiction.

ABAB

Par exemple, toutes ces études montrant qu'une forte consommation de café chez les seniors est corrélée à des systèmes cardio-vasculaires plus sains sont, à mon avis, indubitablement motivées par des personnes voulant justifier leurs fortes habitudes de café. Cependant, dire que boire du café n'est corrélé qu'avec des cœurs plus sains, plutôt que causal, ne répond pas à notre vraie question d'intérêt: allons-nous être en meilleure santé si nous buvons plus de café ou si nous réduisons? Il peut être très frustrant de trouver des résultats très intéressants (le café est lié à des cœurs plus sains!) Mais ne pas être en mesure d'utiliser ces informations pour prendre des décisions (je ne sais toujours pas si vous devez boire du café pour être en meilleure santé), et donc il y a presque toujours une tentation d'interpréter la corrélation comme une causalité.

À moins que vous ne vous souciez que du jeu (c'est-à-dire que vous voulez prédire mais pas influencer).


2

Il y a de la valeur dans la corrélation, mais il faut regarder plus de preuves pour conclure à la causalité.

Il y a des années, une étude a abouti à «le café cause le cancer». Dès que j'ai entendu cela aux nouvelles, j'ai dit à ma femme une "fausse corrélation". Il s'est avéré que j'avais raison. La population de café de 2 à 3 tasses par jour avait un taux de tabagisme plus élevé que les non-buveurs de café. Une fois que les collecteurs de données ont compris cela, ils ont rétracté leurs résultats.

Une autre étude intéressante avant le boom et l'effondrement du logement a montré le racisme en ce qui concerne le traitement des hypothèques. L'affirmation était que les candidats noirs étaient rejetés à un taux plus élevé que les blancs. Mais une autre étude a examiné les taux de défaut. Les propriétaires noirs étaient en défaut au même rythme que les blancs. Si l'application noire était maintenue à un niveau plus élevé, son taux par défaut serait en réalité bien inférieur. Remarque: cette anecdote a été partagée par l'auteur Thomas Sowell dans son livre The Housing Boom and Bust

L'exploration de données peut facilement produire deux ensembles de données qui présentent une forte corrélation, mais pour des événements qui ne pouvaient pas être liés. En fin de compte, il est préférable de regarder les études qui vous sont envoyées avec un œil très critique. Trouver de fausses corrélations n'est pas toujours facile, c'est un talent acquis.


J'ai bien aimé lire cette réponse. Il semble cependant aborder l'inverse de la question: "Est-il inutile de savoir que deux variables sont corrélées? ... Dans quelles situations un statisticien ou un data scientist peut-il utiliser la corrélation sans causalité?"
whuber

1
"Les propriétaires noirs étaient en défaut au même rythme que les blancs. Si l'application noire était maintenue à un niveau plus élevé, leur taux par défaut serait en fait beaucoup plus bas." saute aux conclusions. C'est exactement ce problème; Les candidats noirs seront statistiquement différents des candidats blancs, et si plus de Noirs font partie d'un groupe plus susceptible d'avoir accepté des prêts hypothécaires par défaut, les candidats noirs ayant le même taux de défaut indiqueraient une discrimination contre. Il est difficile de séparer les effets de confusion.
prosfilaes

Comme je l'ai dit, l'anecdote est venue d'un savant noir bien connu. Et il a fallu bien plus qu'un paragraphe pour discuter dans le livre auquel j'ai fait référence.
JTP

1

La corrélation est un phénomène observable. Vous pouvez le mesurer. Vous pouvez agir sur ces mesures. En soi, cela peut être utile.

Cependant, si tout ce que vous avez est une corrélation, vous n'avez aucune garantie qu'un changement que vous apporterez aura réellement un effet (voir les célèbres graphiques liant la montée des iPhones à l'esclavage à l'étranger et autres). Cela montre simplement qu'il y a une corrélation là-bas, et si vous modifiez l'environnement (en agissant), cette corrélation peut toujours être là.

Cependant, c'est une approche très subtile. Dans de nombreux scénarios, nous voulons avoir un outil moins subtil: la causalité. La causalité est une corrélation combinée avec une affirmation selon laquelle si vous modifiez votre environnement en agissant d'une manière ou d'une autre, il faut s'attendre à ce que la corrélation soit toujours là. Cela permet une planification à plus long terme, comme l'enchaînement de 20 ou 50 événements causaux consécutifs pour identifier un résultat utile. Le faire avec 20 ou 50 corrélations laisse souvent un résultat très flou et trouble.

Comme exemple de leur utilité dans le passé, considérons la science occidentale par rapport à la médecine traditionnelle chinoise (MTC). La science occidentale se concentre principalement sur "Développer une théorie, isoler un test qui peut démontrer la théorie, exécuter le test et documenter les résultats." Cela commence par «développer une théorie», qui est fortement liée à la causalité. TCM l'a fait tourner, en commençant par «concevoir un test qui peut fournir des résultats utiles, exécuter le test, identifier les corrélations dans la réponse». L'accent est davantage mis sur les corrélations.

De nos jours, les occidentaux ont tendance à préférer penser presque entièrement en termes de causalité, de sorte que la valeur de l'étude de la corrélation est plus difficile à espionner. Cependant, nous le trouvons caché dans tous les coins de notre vie. Et n'oubliez jamais que même dans la science occidentale, les corrélations sont un outil important pour identifier quelles théories méritent d'être explorées!

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.