Dans le contexte des sciences sociales d'où je viens, la question est de savoir si vous êtes intéressé par (a) la prédiction ou (b) tester une question de recherche ciblée. Si le but est la prédiction, des approches basées sur les données sont appropriées. Si le but est d'examiner une question de recherche ciblée, il est important de considérer quel modèle de régression teste spécifiquement votre question.
Par exemple, si votre tâche consistait à sélectionner un ensemble de tests de sélection pour prédire le rendement au travail, l'objectif peut dans un certain sens être considéré comme l'un de maximiser la prédiction du rendement au travail. Ainsi, des approches basées sur les données seraient utiles.
En revanche, si vous vouliez comprendre le rôle relatif des variables de personnalité et des variables de capacité dans l'influence sur les performances, une approche de comparaison de modèle spécifique pourrait être plus appropriée.
Généralement, lors de l'exploration de questions de recherche ciblées, le but est d'élucider quelque chose sur les processus causaux sous-jacents qui fonctionnent plutôt que de développer un modèle avec une prédiction optimale.
Lorsque je suis en train de développer des modèles de processus basés sur des données transversales, je me méfierais: (a) d'inclure des prédicteurs qui pourraient théoriquement être considérés comme des conséquences de la variable de résultat. Par exemple, la croyance d'une personne qu'elle est un bon interprète est un bon prédicteur de la performance au travail, mais il est probable que cela soit au moins partiellement dû au fait qu'elle a observé sa propre performance. (b) comprenant un grand nombre de prédicteurs qui reflètent tous les mêmes phénomènes sous-jacents. Par exemple, comprenant 20 articles mesurant tous la satisfaction à l'égard de la vie de différentes manières.
Ainsi, les questions de recherche ciblées reposent beaucoup plus sur des connaissances spécifiques au domaine. Cela explique probablement en partie pourquoi les approches fondées sur les données sont moins souvent utilisées en sciences sociales.