Selon moi, il y a deux problèmes fondamentaux avec les études d'observation qui "contrôlent" un certain nombre de variables indépendantes. 1) Vous avez le problème de manquer des variables explicatives et donc une mauvaise spécification du modèle. 2) Vous avez le problème de plusieurs variables indépendantes corrélées - un problème qui n'existe pas dans les expériences (bien) conçues - et le fait que les coefficients de régression et les tests ANCOVA des covariables sont basés sur des partiels, ce qui les rend difficiles à interpréter. La première est intrinsèque à la nature de la recherche observationnelle et est abordée dans le contexte scientifique et le processus d'élaboration compétitive. Ce dernier est une question d'éducation et repose sur une compréhension claire des modèles de régression et d'ANCOVA et de ce que ces coefficients représentent exactement.
En ce qui concerne le premier problème, il est assez facile de démontrer que si toutes les influences sur une variable dépendante sont connues et incluses dans un modèle, les méthodes statistiques de contrôle sont efficaces et produisent de bonnes prévisions et estimations des effets pour les variables individuelles. Le problème dans les "sciences douces" est que toutes les influences pertinentes sont rarement incluses ou même connues et donc les modèles sont mal spécifiés et difficiles à interpréter. Pourtant, de nombreux problèmes intéressants existent dans ces domaines. Les réponses manquent tout simplement de certitude. La beauté du processus scientifique est qu'il est auto-correcteur et que les modèles sont questionnés, élaborés et raffinés. L'alternative est de suggérer que nous ne pouvons pas enquêter scientifiquement sur ces questions lorsque nous ne pouvons pas concevoir d'expériences.
Le deuxième problème est un problème technique de la nature des modèles ANCOVA et de régression. Les analystes doivent être clairs sur ce que ces coefficients et tests représentent. Les corrélations entre les variables indépendantes influencent les coefficients de régression et les tests ANCOVA. Ce sont des tests de partiels. Ces modèles extraient la variance d'une variable indépendante donnée et de la variable dépendante qui sont associées à toutes les autres variables du modèle, puis examinent la relation entre ces résidus. Par conséquent, les coefficients et tests individuels sont très difficiles à interpréter en dehors du contexte d'une compréhension conceptuelle claire de l'ensemble des variables incluses et de leurs interrelations. Cependant, cela ne pose AUCUN problème de prévision - soyez prudent dans l'interprétation des tests et des coefficients spécifiques.
Une remarque: ce dernier problème est lié à un problème discuté précédemment dans ce forum sur l'inversion des signes de régression - par exemple, du négatif au positif - lorsque d'autres prédicteurs sont introduits dans un modèle. En présence de prédicteurs corrélés et sans une compréhension claire des relations multiples et complexes entre l'ensemble des prédicteurs, il n'y a aucune raison de s'attendre à ce qu'un coefficient de régression (par nature partiel) ait un signe particulier. Lorsqu'il existe une théorie solide et une compréhension claire de ces interrelations, de tels «renversements» de signes peuvent être instructifs et théoriquement utiles. Bien que, compte tenu de la complexité de nombreux problèmes de sciences sociales, une compréhension suffisante ne soit pas courante, je m'attendrais.
Avertissement: Je suis sociologue et analyste des politiques publiques de formation.