Ce qui suit est une question sur les nombreuses visualisations offertes comme «preuve par l'image» de l'existence du paradoxe de Simpson, et peut-être une question sur la terminologie.
Le Paradoxe de Simpson est un phénomène assez simple à décrire et à donner des exemples numériques (la raison pour laquelle cela peut se produire est profonde et intéressante). Le paradoxe est qu'il existe des tables de contingence 2x2x2 (Agresti, analyse de données catégoriques) où l'association marginale a une direction différente de chaque association conditionnelle.
Autrement dit, la comparaison des ratios dans deux sous-populations peut toutes deux aller dans une direction mais la comparaison dans la population combinée va dans l'autre direction. En symboles:
Il existe tels que a + b
mais et
Ceci est représenté avec précision dans la visualisation suivante (de Wikipedia ):
Une fraction est simplement la pente des vecteurs correspondants, et il est facile de voir dans l'exemple que les vecteurs B plus courts ont une pente plus grande que les vecteurs L correspondants, mais le vecteur B combiné a une pente plus petite que le vecteur L combiné.
Il existe une visualisation très courante sous plusieurs formes, une en particulier à l'avant de cette référence wikipedia sur Simpson:
Ceci est un excellent exemple de confusion, comment une variable cachée (qui sépare deux sous-populations) peut montrer un modèle différent.
Cependant, mathématiquement, une telle image ne correspond nullement à un affichage des tableaux de contingence qui sont à la base du phénomène dit du paradoxe de Simpson . Premièrement, les lignes de régression sont sur des données d'ensemble de points à valeur réelle, et non sur les données d'une table de contingence.
En outre, on peut créer des ensembles de données avec une relation arbitraire de pentes dans les lignes de régression, mais dans les tableaux de contingence, il y a une restriction dans la façon dont les pentes peuvent être différentes. C'est-à-dire que la droite de régression d'une population peut être orthogonale à toutes les régressions des sous-populations données. Mais dans le Paradoxe de Simpson, les ratios des sous-populations, bien qu'il ne s'agisse pas d'une pente de régression, ne peuvent pas trop s'éloigner de la population fusionnée, même si dans l'autre sens (encore une fois, voir l'image de comparaison des ratios de Wikipedia).
Pour moi, cela suffit d'être déconcerté chaque fois que je vois cette dernière image comme une visualisation du paradoxe de Simpson. Mais comme je vois partout (ce que j'appelle mal) des exemples, je suis curieux de savoir:
- Suis-je en train de manquer une transformation subtile des exemples originaux de tables de contingence Simpson / Yule en valeurs réelles qui justifient la visualisation de la ligne de régression?
- Sûrement Simpson est un exemple particulier d'erreur de confusion. Le terme «Paradoxe de Simpson» est-il devenu synonyme d'erreur de confusion, de sorte que, quel que soit le calcul, tout changement de direction via une variable cachée peut être appelé Paradoxe de Simpson?
Addendum: Voici un exemple de généralisation à une table 2xmxn (ou 2 par m en continu):
S'il est fusionné sur le type de tir, il semble qu'un joueur fasse plus de coups lorsque les défenseurs sont plus proches. Regroupé par type de tir (distance du panier vraiment), la situation la plus intuitive se produit, plus il y a de tirs, plus les défenseurs sont éloignés.
Cette image est ce que je considère comme une généralisation de Simpson à une situation plus continue (distance des défenseurs). Mais je ne vois toujours pas encore comment l'exemple de ligne de régression est un exemple de Simpson.