Andrew Gelman dans l' un de ses récents articles de blog dit:
Je ne pense pas que des contrefactuels ou des résultats potentiels soient nécessaires pour le paradoxe de Simpson. Je dis cela parce que l'on peut mettre en place le paradoxe de Simpson avec des variables qui ne peuvent pas être manipulées, ou pour lesquelles les manipulations ne sont pas directement d'intérêt.
Le paradoxe de Simpson fait partie d'un problème plus général que les coefficients de régression changent si vous ajoutez plus de prédicteurs, le retournement de signe n'est pas vraiment nécessaire.
Voici un exemple que j'utilise dans mon enseignement qui illustre les deux points:
Je peux exécuter une régression prédisant le revenu du sexe et de la taille. Je trouve que le coef de sexe est de 10 000 $ (c'est-à-dire en comparant un homme et une femme de la même taille, en moyenne l'homme fera 10 000 $ de plus) et le coefficient de taille est de 500 $ (c'est-à-dire en comparant deux hommes ou deux femmes de différentes hauteurs, la personne la plus grande gagnera en moyenne 500 $ de plus par pouce de hauteur).
Comment puis-je interpréter ces coefs? Je pense que le coef de hauteur est facile à interpréter (il est facile d'imaginer comparer deux personnes du même sexe avec des hauteurs différentes), en effet il semblerait en quelque sorte «mauvais» de régresser sur la hauteur sans contrôler le sexe, autant de brut la différence entre les personnes de petite taille et de grande taille peut être «expliquée» par les différences entre les hommes et les femmes. Mais le coef de sexe dans le modèle ci-dessus semble très difficile à interpréter: pourquoi comparer un homme et une femme qui mesurent tous les deux 66 pouces, par exemple? Ce serait une comparaison d'un petit homme avec une grande femme. Tout ce raisonnement semble vaguement causal mais je ne pense pas qu'il soit logique d'y penser en utilisant des résultats potentiels.
J'y ai réfléchi (et même commenté le post) et je pense qu'il y a quelque chose qui mérite d'être compris avec plus de clarté ici.
Jusqu'à la partie sur l'interprétation du genre, tout va bien. Mais je ne vois pas quel est le problème derrière la comparaison d'un petit homme et d'une grande femme. Voici mon point: en fait, cela a encore plus de sens (étant donné l'hypothèse que les hommes sont plus grands en moyenne). Vous ne pouvez pas comparer un «homme court» et une femme «courte» pour exactement la même raison, car la différence de revenu s'explique en partie par la différence de hauteur. Il en va de même pour les hommes de grande taille et les femmes de grande taille et plus encore pour les femmes de petite taille et les hommes de grande taille (ce qui est plus hors de question, pour ainsi dire). Donc, fondamentalement, l'effet de la taille n'est éliminé que dans le cas où les hommes courts et les femmes grandes sont comparés (et cela aide à interpréter le coefficient sur le sexe). Cela ne fait-il pas penser à des concepts sous-jacents similaires derrière les modèles de correspondance populaires?
L'idée derrière le paradoxe de Simpson est que l'effet sur la population pourrait être différent de l'effet ou des effets sur les sous-groupes. Cela est en quelque sorte lié à son point 2 et au fait qu'il reconnaît que la hauteur ne doit pas être contrôlée pour lui seul (ce que nous disons omis le biais variable). Mais je ne pouvais pas relier cela à la controverse sur le coefficient de genre.
Peut-être pourriez-vous l'exprimer plus clairement? Ou commenter ma compréhension?