J'essaie d'adapter un modèle log-linéaire à un grand nombre de variables à partir de données d'enquête. Il y a certaines raisons pour lesquelles il pourrait être préférable d'adapter les régressions logistiques à ces données. Plusieurs autorités suggèrent que celles-ci sont équivalentes. Cependant, j'ai quelques raisons d'en douter.
- Les modèles log-linéaires traitent toutes les variables de manière équivalente, tandis que la régression logistique nécessite qu'une variable soit identifiée comme variable de réponse.
Dans le contexte des moindres carrés, il n'est généralement pas le cas que pour Y = a + bX + ε versus X = c + dY + ε le paramètre d soit même approximativement égal à 1 / b. En effet, la première équation minimise l'erreur verticale, tandis que la seconde minimise l'erreur horizontale. Celles-ci ne seront égales que si les erreurs sont symétriques autour de la ligne estimée. Je crains donc que cela ne soit également vrai de la régression logistique. (2) n'est en fait qu'une forme spécifique de (1), c'est-à-dire une asymétrie possible dans le format de régression du choix d'une variable particulière comme réponse.
Si toutes les variables du modèle log-linéaire sont impliquées dans un ou plusieurs termes d'interaction, je ne vois pas comment une régression logistique peut être équivalente. Comment exprimer les interactions dans lesquelles la variable de réponse est impliquée dans le contexte d'une régression logistique?
En réponse à Bill Huber, j'utilise le terme modèle log-linéaire dans un sens considérablement plus restreint que Wikipedia. Je fais référence à des modèles de données de comptage catégoriques ou ordinales, organisés en tableaux, où les coefficients sont le nombre total de tableaux, les comptes marginaux pour chaque facteur divisé par le nombre total de tableaux (servant de proxys pour les probabilités) et divers termes d'interaction. C'est le sens utilisé dans Agresti, «Analyse des données catégoriques», entre autres.