Exemples d'enseignement: corrélation ne signifie pas causalité


74

Il existe un vieil adage: "Corrélation ne signifie pas causalité". Quand j'enseigne, j'ai tendance à utiliser les exemples standard suivants pour illustrer ce point:

  1. nombre de cigognes et taux de natalité au Danemark;
  2. nombre de prêtres en Amérique et alcoolisme;
  3. au début du XXe siècle, il existait une forte corrélation entre le «nombre de radios» et le «nombre de personnes dans Asylums Insane»
  4. et mon préféré: les pirates causent le réchauffement climatique .

Cependant, je n'ai aucune référence pour ces exemples et, bien qu'amusants, ils sont évidemment faux.

Est-ce que quelqu'un a d'autres bons exemples?


2
Parcourez Freakonomics pour quelques bons exemples. Leur bibliographie est riche en références.
Stephen Turner


5
Cette théorie pirates / réchauffement de la planète est clairement préparée par les théoriciens du complot: tout le monde peut constater qu’il a délibérément tracé un espacement uniforme pendant des durées inégales pour éviter de montrer la forte augmentation récente de la température, les pirates étant presque entièrement anéantis. Nous savons tous que lorsque les températures augmentent, le rhum s'évapore et les pirates ne peuvent pas survivre. ;-)
AdamV

4
WTF est en haut avec l'axe des x sur ce graphe pirate?
naught101

1
Ou presque tout ce que vous avez mis dans Google Correlate , venez-y.
conjugateprior

Réponses:


39

Il pourrait être utile d'expliquer que "causes" est une relation asymétrique (X causes Y est différent de Y causes X), alors que "est corrélé à" est une relation symétrique.

Par exemple, le nombre de sans-abri et le taux de criminalité peuvent être corrélés, dans la mesure où ils ont tendance à être élevés ou faibles aux mêmes endroits. Il est également valable de dire que la population des sans-abri est corrélée au taux de criminalité ou que le taux de criminalité est corrélé à la population des sans-abri. Dire que le crime cause l'itinérance ou que les populations sans abri causent la criminalité sont des déclarations différentes. Et la corrélation n'implique pas que l'un ou l'autre soit vrai. Par exemple, la cause sous-jacente pourrait être une 3ème variable telle que la toxicomanie ou le chômage.

Les mathématiques de la statistique ne permettent pas d'identifier les causes sous-jacentes, ce qui nécessite une autre forme de jugement.


3
Jugement est un bon mot, car tout ce que nous pouvons observer est la corrélation. Tout ce que des expériences et / ou des statistiques intelligentes peuvent faire, nous permet d’exclure certaines explications alternatives de ce qui aurait pu causer un effet.
Jonas

Très bon commentaire sur les relations symétriques / asymétriques. On pourrait également affirmer que le réchauffement climatique entraîne une augmentation du piratage.
Andre Holzner

27

Mes favoris:

1) Plus les pompiers sont incendiés, plus les dégâts sont importants.

2) Les enfants qui reçoivent un tutorat ont de moins bonnes notes que les enfants qui ne le sont pas

et (c'est mon top)

3) Dans les premières années d'école primaire, le signe astrologique est corrélé au QI, mais cette corrélation s'affaiblit avec l'âge et disparaît à l'âge adulte.


2
(@xmjx A fourni le premier exemple l'année dernière.) J'aime l'exemple de l'astrologie.
whuber

Pouvez-vous expliquer l'échantillon avec le signe astrologique s'il vous plaît?
Eugene D. Gubenkov

2
Peu importe, je l'ai. Cela a à voir avec la différence d'âge entre ceux qui sont nés au début de l'année et ceux qui sont nés à la fin. Agréable.
Eugene D. Gubenkov

24

J'ai toujours aimé celui-ci:

citrons vs morts

source: http://pubs.acs.org/doi/abs/10.1021/ci700332k


1
Bien, mais je ne vois personne tenter de tirer une conclusion de causalité. Ou bien les chauffeurs de citronniers mexicains sont-ils notoirement dangereux lorsqu'ils franchissent la frontière?
AdamV

2
De toute évidence, un effet secondaire imprévu de la profusion de lois sur le citron aux États-Unis. Par exemple, voir: en.wikipedia.org/wiki/Lemon_law
Thylacoleo

11
Un de mes collègues a examiné les données à ce sujet après 2000 et a découvert que la relation se maintenait assez bien "hors échantillon", ce qui est encore plus troublant ...
shabbychef


Une simple rationalisation serait que les deux diminuent avec le temps. Les données post-2000 soutiennent-elles cela? PS, Box Hunter et Hunter (voir ci-dessous) expliquent l'exemple des cigognes de la même manière: les deux ont augmenté avec le temps au cours de la période en question.
Emil Friedman

23
  1. Parfois, la corrélation suffit. Par exemple, en assurance automobile, les conducteurs de sexe masculin sont en corrélation avec plus d'accidents, de sorte que les compagnies d'assurance les facturent davantage. Il n’ya aucun moyen de tester cela en termes de causalité. Vous ne pouvez pas changer les sexes des pilotes de manière expérimentale. Google a gagné des centaines de milliards de dollars sans se soucier de la causalité.

  2. Pour trouver le lien de causalité, vous avez généralement besoin de données expérimentales, et non de données d'observation. Bien qu'en économie, ils utilisent souvent les «chocs» observés sur le système pour tester la causalité, comme si un PDG décédait soudainement et que le cours de l'action montait, vous pouvez en déduire une causalité.

  3. La corrélation est une condition nécessaire mais non suffisante à la causalité. Pour montrer la causalité nécessite un contre-factuel.


1
J'aime le premier exemple que vous donnez. Cela fera certainement parler les étudiants;)
csgillespie le

1
Steve Steinberg a publié sur son blog une discussion intéressante: blog.steinberg.org/?p=11 sur certaines des implications de 1 et sur les conséquences possibles en termes d'IA faible.
Amos

Quelqu'un pourrait-il développer un peu la dernière phrase?
naught101

4
X(1,1)Y(0,1)Y=1X2XsXY

18

J'ai quelques exemples que j'aime utiliser.

  1. En enquêtant sur la cause de la criminalité à New York dans les années 80, alors qu'ils tentaient de nettoyer la ville, un universitaire a découvert une forte corrélation entre le nombre de crimes graves commis et la quantité de crème glacée vendue par des vendeurs de rue! (Quelle est la cause et quel est l'effet?) Évidemment, il y avait une variable non observée causant les deux. L'été, c'est quand le crime est le plus grave et que l'on vend le plus de crème glacée.

  2. La taille de votre paume est en corrélation négative avec la durée de votre vie (vraiment!). En fait, les femmes ont tendance à avoir des paumes plus petites et à vivre plus longtemps.

  3. [Ma préférée] J'ai entendu parler d'une étude réalisée il y a quelques années, selon laquelle la quantité de boisson gazeuse qu'une personne boit est positivement corrélée à la probabilité d'obésité.(Je me suis dit - cela a du sens car cela doit être dû au fait que les gens boivent du soda sucré et obtiennent toutes ces calories vides.) Quelques jours plus tard, plus de détails sont sortis. Presque toute la corrélation était due à une consommation accrue de boissons gazeuses diètes. (Cela a gâché ma théorie!) Alors, de quelle manière est la causalité? Est-ce que les boissons gazeuses diète font prendre du poids, ou un gain de poids entraîne-t-il une consommation accrue de boissons gazeuses diète? (Avant de conclure, il s'agit de la dernière étude. Voir une étude dans laquelle des expériences contrôlées menées sur des rats ont montré que le groupe nourri au yogourt avec un édulcorant artificiel avait pris plus de poids que le groupe nourri au yaourt habituel.) Deux références: Drink More Diet Soda , Gagner plus de poids? ; Sodas diététiques liés à l'obésité. Je pense qu'ils essaient encore de résoudre celui-ci.


4
La dernière est un peu plus compliquée que vous ne la présentez, mais je conviens qu’une grande partie des associations d’observation trouvées entre sodas / diètes et l’obésité devrait être examinée avec un sens critique. Théoriquement, certains ont avancé l'hypothèse que les substituts de faux sucre / gras avaient d'autres effets physiologiques que le simple apport calorique. Voir par exemple cette expérience sur les rats et les graisses synthétiques (tirée du blog Freakonomics).
Andy W

18

Le nombre de prix Nobel gagnés par un pays (en tenant compte de la population) correspond bien à la consommation de chocolat par habitant. ( New England Journal of Medicine )

entrez la description de l'image ici


2
+1 J'ai été très déçu de NEJM quand ils ont publié ceci
MattBagg

5
Il semble que la corrélation soit également très bonne avec la proximité de la Suède ..
naught101

2
La consommation de chocolat (par habitant) est également en corrélation significative avec le nombre de meurtriers en série par habitant. réplicatedtypo.com/…
Harvey Motulsky

2
J'ai demandé à trois lauréats du prix Nobel que je connais (vaguement), et les trois ont déclaré avoir mangé beaucoup plus de chocolat que la plupart de leurs collègues. Bien sûr, ces réponses sont venues après qu'ils aient lu le journal NEJM!
Harvey Motulsky

4
@MattBagg Ceci a été publié en tant que "Notes occasionnelles" et ne doit évidemment pas être pris au sérieux.
Pascal


9

Il y a deux aspects de ce problème post hoc ergo propter que je souhaite aborder: (i) la causalité inverse et (ii) l'endogénéité.

Un exemple de « possible » une causalité inverse: la consommation sociale et des revenus - les buveurs gagnent plus d' argent selon Bethany L. Peters & Edward Stringham (2006. « Non Booze vous pouvez perdre: Pourquoi Buveurs Earn plus d' argent que les abstinents, » Journal du travail Research, Transaction Publishers, vol 27 (3), pages 411-421, juin). Ou bien les personnes qui gagnent plus d’argent boivent-elles plus, soit parce qu’elles ont un revenu disponible plus important, soit en raison du stress? C’est un excellent document à débattre pour toutes sortes de raisons, notamment l’erreur de mesure, le biais de réponse, la causalité, etc.

Un exemple d'endogénéité "possible": l'équation de Mincer explique le logarithme des gains par formation, expérience et expérience au carré. Il existe une longue littérature sur ce sujet. Les économistes du travail veulent estimer la relation de cause à effet entre l'éducation et les revenus, mais l'éducation est peut-être endogène car "la capacité" pourrait augmenter le niveau d'éducation d'un individu (en réduisant le coût de son obtention) et pourrait entraîner une augmentation des revenus, indépendamment de le niveau d'éducation. Une solution potentielle à cela pourrait être une variable instrumentale. Le livre d'Angrist et Pischke, Mostly Harmless Econometrics, couvre ce sujet et traite de sujets de manière très détaillée et claire.

Parmi les autres exemples stupides pour lesquels je n'ai aucun soutien, citons: - Le nombre de téléviseurs par habitant et le nombre de taux de mortalité. Alors envoyons des télévisions dans les pays en développement. Les deux sont évidemment endogènes à quelque chose comme le PIB. - Nombre d'attaques de requins et de ventes de crème glacée. Les deux sont endogènes à la température peut-être?

J'aime aussi raconter la terrible blague sur le fou et l'araignée. Un fou se promène dans les couloirs d'un asile avec une araignée qu'il porte dans la paume de sa main. Il voit le médecin et lui dit: «Regarde Doc, je peux parler aux araignées. Regarde ça." Araignée, va à gauche! "L'araignée se déplace dûment vers la gauche. Le médecin répond: "Intéressant, nous devrions peut-être en parler lors de la prochaine séance de groupe." Le lunatique rétorque, "Ce n'est rien Doc. Regardez ceci. "Il arrache une à une chacune des jambes de l'araignée puis crie:" Araignée, allez à gauche! "L'araignée est immobile sur sa paume et le fou se tourne vers le médecin pour conclure:" Si jambes, il va devenir sourd. "


8

Le meilleur qu'on m'a appris a été le nombre de noyades et les ventes de glaces peuvent être fortement corrélées, mais cela n'implique pas que l'une cause l'autre. Les noyades et les ventes de crème glacée sont évidemment plus élevées en été, quand il fait beau. La troisième variable, autrement dit le beau temps, les provoque.


6

En tant que généralisation du terme "pirates causant le réchauffement planétaire": Choisissez deux quantités qui augmentent (diminuent) monotone avec le temps et vous devriez constater une certaine corrélation.


6

Vous pouvez passer quelques minutes sur Google Correlate et trouver toutes sortes de corrélations parasites.


1
Bien que ce lien puisse répondre à la question, il est préférable d’inclure ici les parties essentielles de la réponse et de fournir le lien pour référence. Les réponses avec lien uniquement peuvent devenir non valides si la page liée est modifiée.
gung - Rétablir Monica

1
@gung es-tu sérieux? Le lien renvoie à une application et non à une simple page décrivant une réponse. La réponse deviendrait invalide si la page liée changeait malgré tout, car l'outil deviendrait indisponible (dans le formulaire actuel).
Jérôme Baum

6

Je travaille avec des étudiants pour enseigner la corrélation vs la causalité dans mes cours d’Algèbre One. Nous examinons beaucoup d'exemples possibles. J'ai trouvé utile que l'article intitulé Bundled-Up Babies and Dangerous Ice Cream: Puzzle de corrélation du professeur de mathématiques de février 2013 soit utile. J'aime l'idée de parler de "variables cachées". Aussi cette caricature est un démarreur de conversation mignon:

entrez la description de l'image ici

Nous identifions la variable indépendante et dépendante dans la caricature et nous discutons pour savoir s'il s'agit d'un exemple de causalité, sinon pourquoi.


4

J'ai lu (il y a longtemps) un exemple intéressant de baisse du taux de natalité (ou du taux de fécondité si vous préférez cette mesure), en particulier aux États-Unis, à partir du début des années 1960, alors que les essais d'armes nucléaires atteignaient un niveau record. (En 1961, la plus grande bombe nucléaire jamais déclenchée a été testée en URSS). Les taux ont continué à diminuer jusqu'à la fin du XXe siècle, lorsque la plupart des pays ont finalement cessé de le faire.

Je ne trouve pas de référence combinant ces chiffres à présent, mais cet article de Wikipedia contient des chiffres sur le nombre d' essais d'armes nucléaires par pays.

Bien entendu, il serait peut-être plus judicieux d’examiner la corrélation entre le taux de natalité et l’introduction et la légalisation de la pilule contraceptive «par hasard» à partir du début des années 1960. (Dans quelques États seulement, puis dans tous les États, il n'y a que les femmes mariées, puis certaines non célibataires, puis à tous les niveaux), mais même cela ne pourrait faire partie de la cause; de nombreux autres aspects de l’égalité, les mutations économiques et d’autres facteurs jouent un rôle important.


Exemple intéressant, car il ressemble, à première vue, à une relation probable de cause à effet, contrairement à la plupart des exemples les plus ridicules.
Bossykena

1
Ce que j’aime, c’est que vous pouvez provoquer beaucoup de discussions sur le fait de savoir si "l’effet" devait réellement avoir un impact sur la fertilité (au sens médical de la capacité de concevoir) ou s’il était social ("je ne veux pas amener un enfant dans une telle situation". monde"). Puis lâchez la bombe sur la pilule si personne d'autre ne l'a évoquée. Et puis soulignez que même cela ne peut être qu'un facteur possible et discutez de certains autres.
AdamV

4

Une corrélation en elle-même ne peut jamais établir un lien de causalité. David Hume (1771-1776) a fait valoir de manière assez efficace que nous ne pouvons pas obtenir certaines connaissances de la causalité par des moyens purement empiriques. Kant a tenté de résoudre ce problème, la page Wikipedia pour Kant semble bien le résumer:

Kant se croyait en train de créer un compromis entre empiristes et rationalistes. Les empiristes croyaient que la connaissance s’acquiert par la seule expérience, mais les rationalistes ont maintenu que cette connaissance est ouverte au doute cartésien et que seule la raison nous en fournit. Kant soutient cependant que l'utilisation de la raison sans l'appliquer à l'expérience ne conduira qu'à des illusions, alors que l'expérience sera purement subjective sans être d'abord englobée dans la raison pure.

En d'autres termes, Hume nous dit que nous ne pouvons jamais savoir qu'il existe un lien de causalité simplement en observant une corrélation, mais Kant suggère que nous pourrions utiliser notre raison pour distinguer les corrélations qui impliquent un lien de causalité de celles qui ne le font pas. Je ne pense pas que Hume aurait été en désaccord, tant que Kant écrivait en termes de vraisemblance plutôt que de certaines connaissances.

En bref, une corrélation fournit une preuve circonstancielle impliquant un lien de causalité, mais le poids de la preuve dépend grandement des circonstances particulières en cause et nous ne pouvons jamais en être absolument sûrs. La capacité de prédire les effets des interventions est un moyen de gagner de la confiance (nous ne pouvons rien prouver, mais nous pouvons le réfuter à l'aide de preuves observationnelles, nous avons donc au moins tenté de falsifier la théorie d'un lien de causalité). Avoir un modèle simple qui explique pourquoi nous devrions observer une corrélation qui explique également d'autres formes de preuves est un autre moyen d'appliquer notre raisonnement comme le suggère Kant.

Caveat emptor: Il est tout à fait possible que j'ai mal compris la philosophie, mais il n'en reste pas moins qu'une corrélation ne peut jamais fournir la preuve d'un lien de causalité.


2
Pour ce que ça vaut, dans la terminologie actuelle , je pense qu'il faut lire Kant affirmer, par exemple , dans la deuxième Analogie, que ce que vous observez des corrélations, il y a un certain graphe de cause à effet les générer. Autant que je sache, il n'avait pas de méthode particulière pour identifier la structure, mais il supposait qu'elle devait être entièrement connectée (car «chaque événement a une cause»). En ce sens, il est contemporain: l'inférence causale nécessite un mélange d'hypothèses causales, exprimées par exemple via un graphique, et de régularités observées dans les données. Et vous ne pouvez généralement pas éviter la première partie, ni l’induire de données
conjugateprior

+1 bien expliqué! Peut - être que je suis trop bayésienne, mais je ne suis pas trop dérangé par l'idée que nous ne pouvons avoir aucune certaine connaissance de toute relation de cause à effet.
Dikran Marsupial



3

La numération des spermatozoïdes chez les mâles dans les villages slovènes et le nombre d'ours (également en Slovénie) montrent une corrélation négative. Certaines personnes trouvent cela très préoccupant. Je vais essayer d'obtenir l'étude qui a fait cela.


3

Je suis récemment allé à une conférence et l'un des intervenants a donné cet exemple très intéressant (bien qu'il s'agisse d'illustrer autre chose):

  • Les Américains et les Anglais mangent beaucoup de graisse. Le taux de maladies cardiovasculaires est élevé aux États-Unis et au Royaume-Uni.

  • Les Français mangent beaucoup de graisses, mais leur taux de maladies cardiovasculaires est faible.

  • Américains et Anglais boivent beaucoup d’alcool. Le taux de maladies cardiovasculaires est élevé aux États-Unis et au Royaume-Uni.

  • Les Italiens boivent beaucoup d’alcool mais, encore une fois, leur taux de maladies cardiovasculaires est faible.

La conclusion? Mangez et buvez ce que vous voulez. Et vous avez plus de chance d'avoir une crise cardiaque si vous parlez anglais!


3
C'est également un bon exemple de l'erreur écologique (c.-à-d. Faire des déductions sur le niveau individuel à partir de données au niveau du groupe).
Jeromy Anglim


3

Un autre exemple de corrélation que j'ai utilisé est la forte augmentation du nombre de personnes consommant des aliments biologiques et l'augmentation du nombre d'enfants atteints d'autisme diagnostiqués aux États-Unis. Il existe un graphique de parodie sur le Web - graphe de parodie d'aliments biologiques autisme


3

http://tylervigen.com/

Cela montre une tonne de corrélations qui n'ont évidemment rien à voir avec la causalité - Ou avez-vous une bonne idée de la corrélation entre corrélation entre Age of Miss America et les meurtres causés par la vapeur, les vapeurs chaudes et les objets brûlants

??


2

Enseigner "La corrélation ne signifie pas la causalité" n'aide vraiment personne, car au bout du compte, tous les arguments déductifs reposent en partie sur la corrélation.

Les humains sont très mauvais pour apprendre à ne pas faire quelque chose.

L’objectif doit plutôt être constructif: pensez toujours à des alternatives à vos hypothèses de départ qui pourraient produire les mêmes données.


1
Cela ne répond pas à la question: peut-être devrait-il être compris comme un commentaire.
whuber

2

Eh bien, mon professeur a utilisé ceux-ci dans la classe de probabilité d'introduction:

1) La taille de la chaussure est corrélée à la capacité de lecture

2) L’attaque des requins est en corrélation avec la vente de crème glacée.


2

Plus le nombre de camions de pompiers envoyés à un incendie est important, plus les dégâts sont importants.


1
Le seul problème avec cet exemple, c'est qu'il existe une causalité inverse claire.
naught101

1

Je pense qu'un meilleur paradigme pourrait être que la causalité nécessite une corrélation associée à un mécanisme crédible et de préférence prouvé. Je pense que le mot implicite devrait être utilisé avec parcimonie dans ce contexte, car il a plusieurs sens, y compris celui de suggestion.


1

L'exemple des cigognes se trouve à la page 8 de la première édition (1978) du livre de Box, Hunter & Hunter intitulé "Statistics for Experimenters ..." (Wiley). Je ne sais pas si c'est dans la 2e édition. Ils identifient la ville comme Oldenbourg et la période 1930-1936.

Ils font référence à Ornithologische Monatsberichte , 44 , n ° 2, Jahrgang, 1936, Berlin, et 48 , n ° 1, Jahrgang, 1940, à Berlin et à Statistiches Jahrbuch Deutscher Gemeinden , 27-33, 1932-1938, Gustav Fischer, Jena.


0

J'ai vu un drôle dans un article.

La production de beurre au Bangladesh présente l'une des corrélations les plus fortes avec le S & P 500 sur une période de dix ans.

http://www.forbes.com/sites/davidleinweber/2012/07/24/stupid-data-miner-tricks-quants-fooling-trems-le-indicateur-industriel-dans-votre-pants/


2
Hein? Le graphique montre l'évolution de l'indice S & P au fil du temps. Le titre parle de la production de beurre et de fromage, qui ne sont pas visibles sur le graphique. ???
Harvey Motulsky


3
OK, maintenant je vois. Le graphique montre la prédiction d'un modèle de régression multiple, montrant que l'inclusion de trois variables idiotes réussit assez bien à faire en sorte que le modèle prédit les changements du SP500 au fil du temps. Ceci est un bon exemple de surajustement dans une régression multiple et montre indirectement que la corrélation (ou l'amélioration de l'ajustement d'un modèle fantaisie) n'implique pas une causalité.
Harvey Motulsky

0

En voici un parfait. Et malheureusement, il peut être utilisé comme un excellent point d’enseignement, car ni le personnel du Washington Post ni les Centers for Disease Control and Prevention ne démontrent le moindre doute quant au fait que cet article devrait être une satire de The Onion.

https://www.washingtonpost.com/health/trumps-presidency-may-be-making-latinos-sick/2019/07/19/4e89b9f0-a97f-11e9-9214-246e594de5d5_story.html?utm_term=.9dd329c2e837


3
Veuillez résumer ce qui est dit derrière le lien, pas seulement le fait que vous jugez qu'il est faux.
cbeleites

Pardon. Mais je pensais que celui-ci était explicite.
Marc C.

2
Le lien est correct en tant que référence à la source, mais vous ne devez pas supposer que tout le monde peut réellement le lire (ou pas sans trop de tracas). N'oubliez pas que ces liens sont très sujets à la pourriture et que tous les journaux ne desservent pas toutes les régions géographiques (par exemple, certains journaux américains ont décidé que le respect du GDPR de l'UE ne valait pas la peine d'être dérangé et bloquerait en conséquence les lecteurs avec EU IP adresse).
cbeleites

-2

Quelqu'un a dit, corrélation peut ne pas signifier causalité mais cela peut sûrement être un bon indice :)

Ok en laissant de côté la partie amusante, quelle est exactement la causalité? Sommes-nous vraiment sûrs que les pirates ne provoquent pas le réchauffement climatique?

Contre-intuitif, mais ce qui est pris comme cause et ce que comme effet (dans une étude de corrélation, ce n'est pas si clair). Bien sûr, plusieurs fois, les deux peuvent simplement être des effets de cause commune (et donc corrélés)

Tout se résume à la méthode de détermination de la causalité.

C'est la cause (le jeu de mots voulu) de l'adage:

Il y a de petits mensonges. Il y a de gros mensonges et des statistiques.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.