Dans [1, §3.2], David Freedman suggère une réponse essentiellement négative à votre question. Autrement dit, aucun (simple) modèle ou algorithme statistique ne pourrait résoudre le problème de John Snow. Le problème de Snow était de développer un argument critique soutenant sa théorie selon laquelle le choléra est une maladie infectieuse d'origine hydrique, contre la théorie des miasmes qui prévalait à l' époque. (Le chapitre 3 de [1], intitulé «Modèles statistiques et cuir pour chaussures», est également disponible sous la forme précédemment publiée [2] ici .)
Dans ces quelques courtes pages [1, pp.47–53], dont une grande partie est une longue citation de John Snow lui-même, Freedman soutient que "ce que Snow a réellement fait en 1853-1854 est encore plus intéressant que la fable [du Broad Pompe de rue]. " En ce qui concerne le rassemblement des preuves statistiques (d'autres préliminaires tels que l'identification des cas index, etc., sont discutés en plus), Snow a exploité la variation naturelle pour effectuer une quasi-expérience vraiment remarquable.
Il s'avère qu'à une époque antérieure, il y avait une concurrence vigoureuse entre les sociétés d'approvisionnement en eau à Londres, et cela a abouti à un mélange spatial de l'approvisionnement en eau qui était (selon les mots de Snow) "du type le plus intime".
Les tuyaux de chaque compagnie descendent dans toutes les rues et dans presque toutes les cours et ruelles. Quelques maisons sont fournies par une entreprise et quelques-unes par l'autre, selon la décision du propriétaire ou de l'occupant à l'époque où les compagnies des eaux étaient en concurrence active.
...
Comme il n'y a aucune différence dans les maisons ou les personnes qui approvisionnent les deux compagnies des eaux, ni dans aucune des conditions physiques dont elles sont entourées, il est évident qu'aucune expérience n'aurait pu être conçue pour tester plus en profondeur la effet de l'approvisionnement en eau sur la progression du choléra que cela, que les circonstances ont mis prêt fait devant l'observateur.
—John Snow
Un autre élément d'une `` variation naturelle '' d'une importance cruciale que John Snow a exploité dans cette quasi-expérience était qu'une entreprise d'eau avait sa prise d'eau sur la Tamise en aval des rejets d'eaux usées , tandis que l'autre avait quelques années avant de déplacer son entrée en amont . Je vous laisse deviner lequel était celui du tableau de données de John Snow!
| Nombre de | Choléra | Décès par
Société | maisons | décès | 10 000 maisons
-------------------------------------------------- --------
Southwark et Vauxhall | 40,046 | 1263 | 315
Lambeth | 26 107 | 98 | 37
Reste de Londres | 256,423 | 1422 | 59
Comme Freedman le note avec fanfaron,
En tant que technologie statistique, [le tableau ci-dessus] n'est en aucun cas remarquable. Mais l'histoire qu'elle raconte est très convaincante. La force de l'argument résulte de la clarté du raisonnement antérieur, de la réunion de nombreux éléments de preuve différents et de la quantité de chaussures en cuir que Snow était prêt à utiliser pour obtenir les données. [1, p.51]
Un autre point de variation naturelle exploité par Snow s'est produit dans la dimension temporelle : la délocalisation de la prise d'eau susmentionnée s'est produite entre deux épidémies, ce qui a permis à Snow de comparer l'eau de la même entreprise avec et sans ajout d'eaux usées. (Merci à Philip B. Stark, un auteur de [1], pour cette info via Twitter . Voir sa conférence en ligne .)
Cette question fournit également une étude instructive sur le contraste entre le déductivisme et l' inductivisme , comme discuté dans cette réponse .
Freedman D, Collier D, Sekhon JS, Stark PB. Modèles statistiques et inférence causale: un dialogue avec les sciences sociales. Cambridge; New York: Cambridge University Press; 2010.
Freedman DA. Modèles statistiques et chaussures en cuir. Méthodologie sociologique . 1991; 21: 291-313. doi: 10.2307 / 270939. Texte intégral