Mon avertissement : je me rends compte que cette question est en sommeil depuis un certain temps, mais elle semble être une question importante et que vous aviez l'intention d'obtenir de multiples réponses. Je suis un psychologue social, et d'après les sons de celui-ci, probablement un peu plus à l'aise avec de telles conceptions que Henrik (bien que ses préoccupations concernant les interprétations causales soient totalement légitimes).
Dans quelles conditions le SEM est-il une technique d'analyse de données appropriée?
Pour moi, cette question comprend en fait deux sous-questions distinctes:
- Pourquoi utiliser SEM en premier lieu?
- Si un chercheur a décidé d'utiliser le SEM, quelles sont les exigences liées aux données pour utiliser le SEM?
Pourquoi utiliser SEM en premier lieu?
SEM est une approche de l'analyse de données plus nuancée et compliquée - et donc moins accessible - que d'autres approches de modélisation linéaire générales plus typiques (par exemple, les ANOVA, les corrélations, la régression et leurs extensions, etc.). Tout ce que vous pouvez penser de faire avec ces approches, vous pouvez le faire avec SEM.
En tant que tel, je pense que les utilisateurs potentiels devraient d'abord évaluer fortement pourquoi ils sont obligés d'utiliser SEM en premier lieu. Certes, SEM offre de puissants avantages à ses utilisateurs, mais j'ai examiné des articles dans lesquels aucun de ces avantages n'est utilisé, et le produit final est une section d'analyse de données dans un article qui est inutilement plus difficile à comprendre pour les lecteurs types. . Cela ne vaut tout simplement pas la peine - pour le chercheur ou le lecteur - si les avantages du SEM par rapport à d'autres approches d'analyse de données ne sont pas récoltés.
Alors, quels sont les principaux avantages d'une approche SEM? Les grands, à mon avis, sont:
(1) Modélisation des variables latentes : SEM permet aux utilisateurs d'examiner les relations structurelles (variances, covariances / corrélations, régressions, différences moyennes de groupe) entre les variables latentes non observées, qui sont essentiellement la covariance partagée entre un groupe de variables (par exemple, les éléments d'une anxiété mesure que vos élèves pourraient utiliser).
Le principal argument de vente pour l'analyse des variables latentes (par exemple, l'anxiété latente) par rapport à un score observé de la construction (par exemple, une moyenne des éléments d'anxiété) est que les variables latentes sont exemptes d'erreurs - les variables latentes sont formées d'une covariance partagée, et l'erreur est théorisée pour ne convoquer rien. Cela se traduit par une puissance statistique accrue, car les utilisateurs n'ont plus à se soucier de la non-fiabilité des mesures atténuant les effets qu'ils tentent de modéliser.
Une autre raison, plus discrète, d'envisager l'utilisation de SEM est, dans certains cas, une façon plus valide pour la construction de tester nos théories sur les constructions. Si vos élèves, par exemple, utilisaient trois mesures différentes de l'anxiété, ne serait-il pas préférable de comprendre les causes / conséquences de ce que ces trois mesures ont en commun - vraisemblablement l'anxiété - dans un cadre SEM, au lieu de privilégier tout une mesure particulière comme la mesure de l' anxiété?
(2) Modélisation de plusieurs variables dépendantes: Même si quelqu'un ne va pas utiliser SEM pour modéliser des variables latentes, cela peut toujours être très utile comme cadre pour analyser simultanément plusieurs variables de résultats dans un modèle. Par exemple, vos élèves sont peut-être intéressés à explorer comment les mêmes prédicteurs sont associés à un certain nombre de résultats cliniquement pertinents différents (p. Ex. Anxiété, dépression, solitude, estime de soi, etc.). Pourquoi exécuter quatre modèles distincts (augmentation du taux d'erreur de type I), alors que vous ne pouvez exécuter qu'un seul modèle pour les quatre résultats qui vous intéressent? C'est également une raison d'utiliser le SEM pour traiter certains types de données dépendantes, où plusieurs répondants dépendants peuvent à la fois produire des réponses prédictives et des résultats (par exemple, des données dyadiques; voir Kenny, Kashy et Cook, 2006,
(3) Modéliser les hypothèses, au lieu de les faire : avec de nombreuses autres approches de l'analyse des données (par exemple, ANOVA, corrélation, régression), nous faisons une tonne d'hypothèses sur les propriétés des données que nous traitons - telles que l'homogénéité des variance / homoscédasticité. SEM (généralement combiné avec une approche à variable latente) permet aux utilisateurs de modéliser les paramètres de variance simultanément en même temps que les moyennes et / ou les corrélations / voies régressives. Cela signifie que les utilisateurs peuvent commencer à théoriser et à tester des hypothèses sur la variabilité, en plus des différences / covariabilité moyennes, au lieu de simplement traiter la variabilité comme une arrière-pensée ennuyeuse liée à une hypothèse.
Une autre hypothèse vérifiable, lors de la comparaison des niveaux moyens de groupe sur une variable, est de savoir si cette variable signifie réellement la même chose pour chaque groupe - appelée invariance de mesure dans la littérature SEM (voir Vandenberg et Lance, 2000, pour une revue de ce processus ). Si c'est le cas, alors les comparaisons sur les niveaux moyens de cette variable sont valides, mais si les groupes ont une compréhension significativement différente de ce qu'est quelque chose, la comparaison des niveaux moyens entre les groupes est discutable. Nous faisons cette hypothèse particulière implicitement tout le temps dans la recherche en utilisant des comparaisons de groupes.
Et puis il y a l'hypothèse, que lorsque vous faites la moyenne ou la somme des scores des éléments (par exemple, sur une mesure d'anxiété) pour créer un indice agrégé, que chaque élément est une bonne mesure de la construction sous-jacente (parce que chaque élément est pondéré également dans moyenne / sommation). SEM élimine cette hypothèse lorsque des variables latentes sont utilisées, en estimant différentes valeurs de charge factorielle (l'association entre l'élément et la variable latente) pour chaque élément.
Enfin, d'autres hypothèses sur les données (par exemple, la normalité), bien que toujours importantes pour la SEM, peuvent être gérées (par exemple, grâce à l'utilisation d'estimateurs "robustes", voir Finney et DiStefano, 2008) lorsque les données ne se rencontrent pas. certains critères (faible asymétrie et kurtosis).
(4) Spécification des contraintes du modèle: La dernière grande raison, à mon avis, d'envisager l'utilisation de SEM, est parce qu'elle permet de tester très facilement des hypothèses particulières que vous pourriez avoir sur votre modèle de données, en forçant ("contraignant" en termes SEM) certains chemins dans votre modèle pour prendre des valeurs particulières et examiner l'impact de l'ajustement de votre modèle sur vos données. Quelques exemples: (A) contraindre une voie de régression à zéro, pour tester si elle est nécessaire dans le modèle; (B) contenant plusieurs voies de régression pour être de même ampleur (par exemple, la force associative pour certains prédicteurs est-elle à peu près égale pour l'anxiété et la dépression?); (C) contraindre les paramètres de mesure nécessaires pour évaluer l'invariance de mesure (décrit ci-dessus); (D) contraindre une voie de régression à être de force égale entre deux groupes différents,
Quelles sont les exigences liées aux données pour SEM?
Les exigences liées aux données pour SEM sont assez modestes; vous avez besoin d'une taille d'échantillon adéquate et pour que vos données répondent aux hypothèses de l'estimateur du modèle que vous avez sélectionné (la ressemblance maximale est typique).
Il est difficile de donner une recommandation unique pour la taille de l'échantillon. Sur la base de simulations simples, Little (2013) suggère que pour des modèles très simples, 100 à 150 observations pourraient suffire, mais les besoins en taille d'échantillon augmenteront à mesure que les modèles deviendront plus complexes et / ou que la fiabilité / validité des variables utilisées dans le modèle diminue. Si la complexité du modèle est une préoccupation, vous pouvez envisager de regrouper les indicateurs de vos variables latentes, mais tous ne sont pas intégrés à cette approche (Little, Cunningham, Shahar et Widaman, 2002). Mais d'une manière générale, toutes choses étant égales par ailleurs, des échantillons plus gros (j'aspire à 200 minimum dans ma propre recherche) sont meilleurs.
En ce qui concerne le respect des hypothèses d'un estimateur sélectionné, cela est généralement assez facile à évaluer (par exemple, examiner les valeurs d'asymétrie et de kurtosis pour un estimateur du maximum de vraisemblance). Et même si les données s'écartent des propriétés présumées, une recherche pourrait envisager l'utilisation d'un estimateur «robuste» (Finney et DiStefano, 2008) ou d'un estimateur qui suppose un type de données différent (par exemple, un estimateur catégorique, comme le moins pondéré en diagonale). carrés).
Alternatives au SEM pour l'analyse des données?
Si un chercheur ne veut pas profiter des avantages fournis par une approche SEM que j'ai soulignée ci-dessus, je recommanderais de m'en tenir à la version la plus simple et la plus accessible de cette analyse particulière (e..g, t -tests, ANOVA, analyse de corrélation, modèles de régression [y compris les modèles de médiation, de modération et de processus conditionnel]). Les lecteurs les connaissent mieux et les comprendront donc plus facilement. Cela ne vaut tout simplement pas la peine de confondre les lecteurs avec les détails du SEM si vous utilisez essentiellement le SEM au même effet qu'une approche analytique plus simple.
Conseils aux chercheurs envisageant d'utiliser le SEM?
Pour les nouveaux utilisateurs de SEM:
- Obtenez un texte SEM de base complet et accessible. J'aime Beaujean (2014), Brown (2015; l'édition précédente est solide aussi) et Little (2013; bonne introduction générale, même si elle se concentre plus tard spécifiquement sur les modèles longitudinaux).
- Apprenez à utiliser le
lavaan
package pour R
(Rosseel, 2012). Sa syntaxe est aussi simple que la syntaxe SEM peut l'obtenir, sa fonctionnalité est suffisamment large pour les besoins SEM de nombreux utilisateurs (certainement pour les débutants), et c'est gratuit. Le livre Beaujean donne une excellente introduction simultanée au SEM et au lavaan
package.
- Consultez / utilisez régulièrement CrossValidated et StacksOverflow. Des choses inattendues peuvent se produire lors de l'ajustement de modèles SEM, et il est probable que de nombreuses choses étranges que vous pourriez rencontrer ont déjà été décrites et résolues sur Stacks.
- Comme le souligne Herik, notez que ce n'est pas parce que vous spécifiez un modèle qui implique des associations causales que la SEM aide à établir la causalité dans une étude transversale / non expérimentale. En outre, il est totalement utile d'envisager l'utilisation de SEM pour analyser les données de plans longitudinaux et / ou expérimentaux.
Et pour ceux qui commencent réellement à utiliser SEM:
- Vous serez, à un moment donné, tenté de spécifier bon gré mal gré les résidus corrélés, dans le but d'améliorer l'ajustement de votre modèle. Non. Du moins pas sans bonne raison a priori . Le plus souvent, un plus grand échantillon ou un modèle plus simple est le remède.
- Évitez d'utiliser la méthode d'identification des variables marqueurs pour les variables latentes (c'est-à-dire en fixant le premier facteur de charge à 1). Il privilégie cet indicateur comme indicateur "étalon-or" de votre variable latente, alors que dans la plupart des cas, il n'y a aucune raison de supposer que c'est le cas. N'oubliez pas qu'il s'agit du paramètre d'identification par défaut dans la plupart des programmes.
Les références
Beaujean, AA (2014). Modélisation de variables latentes à l'aide de R: Un guide étape par étape . New York, NY: Routledge.
Brown, TA (2015). Analyse factorielle confirmatoire pour les chercheurs appliqués (2e édition). New York, NY: Guilford Press.
Finney, SJ et DiStefano, C. (2008). Données non normales et catégorielles dans la modélisation d'équations structurelles. Dans GR Hancock & RD Mueller (Eds.), Structural equation modeling: A second course (pp. 269-314). Publication de l'ère de l'information.
Kenny, DA, Kashy, DA et Cook, WL (2006). Analyse des données dyadiques . New York, NY: Guilford Press.
Little, TD (2013). Modélisation des équations structurelles longitudinales . New York, NY: Guilford Press.
Little, TD, Cunningham, WA, Shahar, G., et Widaman, KF (2002). Pour coliser ou ne pas coliser: Explorer la question, peser le bien-fondé. Modélisation d'équations structurelles , 9 , 151-173.
Rosseel, Y. (2012). lavaan: Un package R pour la modélisation d'équations structurelles. Journal of Statistical Software , 48 (2), 1-36.
Vandenberg, RJ et Lance, CE (2000). Un examen et une synthèse de la littérature sur l'invariance de mesure: suggestions, pratiques et recommandations pour les chercheurs en organisation. Méthodes de recherche organisationnelle , 3 , 4-70.