Tout d'abord, je réalise que la régression multiple ne donne pas vraiment d'inférence "causale" sur les données. Permettez-moi d'expliquer mon cas actuel:
J'ai quatre variables indépendantes qui j'espère (mais je ne suis pas sûr) sont impliquées dans la conduite de la chose que je mesure. J'ai voulu utiliser la régression multiple pour voir dans quelle mesure chacune de ces variables contribue à ma variable dépendante, et je l'ai fait. Soi-disant, la variable «Numéro quatre» influence très fortement ma mesure des résultats (poids bêta proche de 0,7).
Cependant, on m'a dit que cela ne suffisait pas, car certaines de mes variables "indépendantes" peuvent en fait être corrélées les unes avec les autres. Dans ce cas, je pourrais penser que "Variable quatre" est le moteur de ma variable dépendante, alors qu'en réalité les trois et les quatre pourraient contribuer de manière égale. Cela semble correct, mais comme je suis nouveau dans ce domaine, je ne suis pas sûr.
Comment puis-je éviter systématiquement ce problème à l'avenir? Quelles procédures spécifiques recommanderiez-vous lorsque vous utilisez la régression multiple pour vous assurer que vos données "indépendantes" ne contiennent pas déjà des corrélations cachées?
Edit: Les données elles-mêmes sont une série de modèles de réseau (graphique) d'un état neurologique particulier. Je mesure le "coefficient de clustering" qui décrit la topologie de chaque réseau dans son ensemble (variable dépendante ici), puis je vérifie si les connectivités individuelles de quatre nœuds dans le plus grand réseau 100+ déterminent les valeurs de clustering mondiales (quatre indépendantes variables). Cependant, ces nœuds font partie d'un réseau, donc, par définition, il est possible qu'ils soient corrélés dans une certaine mesure.