Que dois-je savoir lorsque j'utilise la régression multiple pour trouver des relations «causales» dans mes données?

8

Tout d'abord, je réalise que la régression multiple ne donne pas vraiment d'inférence "causale" sur les données. Permettez-moi d'expliquer mon cas actuel:

J'ai quatre variables indépendantes qui j'espère (mais je ne suis pas sûr) sont impliquées dans la conduite de la chose que je mesure. J'ai voulu utiliser la régression multiple pour voir dans quelle mesure chacune de ces variables contribue à ma variable dépendante, et je l'ai fait. Soi-disant, la variable «Numéro quatre» influence très fortement ma mesure des résultats (poids bêta proche de 0,7).

Cependant, on m'a dit que cela ne suffisait pas, car certaines de mes variables "indépendantes" peuvent en fait être corrélées les unes avec les autres. Dans ce cas, je pourrais penser que "Variable quatre" est le moteur de ma variable dépendante, alors qu'en réalité les trois et les quatre pourraient contribuer de manière égale. Cela semble correct, mais comme je suis nouveau dans ce domaine, je ne suis pas sûr.

Comment puis-je éviter systématiquement ce problème à l'avenir? Quelles procédures spécifiques recommanderiez-vous lorsque vous utilisez la régression multiple pour vous assurer que vos données "indépendantes" ne contiennent pas déjà des corrélations cachées?

Edit: Les données elles-mêmes sont une série de modèles de réseau (graphique) d'un état neurologique particulier. Je mesure le "coefficient de clustering" qui décrit la topologie de chaque réseau dans son ensemble (variable dépendante ici), puis je vérifie si les connectivités individuelles de quatre nœuds dans le plus grand réseau 100+ déterminent les valeurs de clustering mondiales (quatre indépendantes variables). Cependant, ces nœuds font partie d'un réseau, donc, par définition, il est possible qu'ils soient corrélés dans une certaine mesure.

multivariate-analysis multiple-regression

— rd108
source

3

Ce qui rend une corrélation causale est une question litigieuse en philosophie des sciences. Le «gold standard» consiste à réaliser une expérience où la variable de traitement est assignée au hasard, garantissant ainsi que d'autres covariables potentiellement confondantes ne sont pas systématiquement liées au traitement. Cependant, dans de nombreux domaines et pour de nombreuses questions, les expériences sont impossibles. Certains se tournent vers des expériences dites naturelles pour l'exogénéité. Vous pouvez être intéressé par l'article classique de Paul Holland, "Statistiques et inférence causale". Journal de l'American Statistical Association, 81, 945-970.

— Jason Morgan

1

Vous posez des questions très importantes, mais il est peu probable que quiconque puisse vous donner une série définitive d'étapes à suivre ou une belle recette condensée; maîtriser cette problématique est une proposition à long terme. Suggestions supplémentaires sur les termes et sujets à étudier: variables de suppression; estimations de la tolérance et de la variance de l'inflation; corrélations d'ordre zéro, partielles et semi-partielles (partie); méthodes de sélection des variables; validation croisée.

— rolando2

Si vous deviez nous dire le but de cette modélisation, vous pourriez obtenir des suggestions encore plus utiles. La régression multiple traite assez bien les variables indépendantes corrélées, tant qu'elles ne sont pas trop fortement corrélées, ce qui entraîne une multicolinéarité. Comme d'autres l'ont dit, évaluer la causalité est difficile (mais pas impossible) en dehors d'une expérience randomisée. Voir certains de ces liens: delicious.com/MichaelBishop/causality pour en savoir plus sur ce sujet.

— Michael Bishop

Les données elles-mêmes sont une série de modèles de réseau (graphique) d'un état neurologique particulier. Je mesure le "coefficient de clustering" qui décrit la topologie de chaque réseau dans son ensemble (variable dépendante ici), puis je vérifie si les connectivités individuelles de quatre nœuds dans le plus grand réseau 100+ déterminent les valeurs de clustering mondiales (quatre indépendantes variables). Cependant, ces nœuds font partie d'un réseau, donc, par définition, il est possible qu'ils soient corrélés dans une certaine mesure.

— rd108

5

Vous ne pouvez pas "éviter systématiquement ce problème à l'avenir", car il ne devrait pas être appelé un "problème". Si la réalité du monde matériel présente de fortes covariables, alors nous devons l'accepter comme un fait et ajuster nos théories et nos modèles en conséquence. J'aime beaucoup la question et j'espère que ce qui suit ne vous semblera pas trop décevant.

Voici quelques ajustements qui pourraient vous convenir. Vous devrez consulter un manuel de régression avant de continuer.

Diagnostiquez le problème en utilisant des techniques de corrélation ou de post-estimation comme le facteur d'inflation de la variance (VIF). Utilisez les outils mentionnés par Peter Flom si vous utilisez SAS ou R. Dans Stata, utilisez pwcorrpour construire une matrice de corrélation, gr matrixpour construire une matrice de nuage de points et vifpour détecter des niveaux de tolérance problématiques de 1 / VIF <0,1.
Mesurez l'effet d'interaction en ajoutant, par exemple, var3*var4au modèle. Le coefficient vous aidera à comprendre combien est en jeu entre var3et var4. Cela ne vous amènera qu'à mesurer partiellement l'interaction, mais cela ne sauvera pas votre modèle de ses limites.
Plus important encore, si vous détectez une forte multicolinéarité ou d'autres problèmes comme l'hétéroscédasticité, vous devez abandonner votre modèle et recommencer. La mauvaise spécification du modèle est le fléau de l'analyse de régression (et des méthodes fréquentistes en général). Paul Schrodt a plusieurs excellents articles sur la question, dont ses récents " Seven Deadly Sins " que j'aime beaucoup.

Cela répond à votre point sur la multicolinéarité, et beaucoup de cela peut être appris du manuel de régression sur UCLA Stat Computing. Cela ne répond pas à votre question sur la causalité. En bref, la régression n'est jamais causale. Aucun modèle statistique non plus: les informations causales et statistiques sont des espèces distinctes. Lisez sélectivement dans Judea Pearl ( exemple ) pour en savoir plus sur le sujet.

Dans l'ensemble, cette réponse n'annule pas la valeur de l'analyse de régression, ni même des statistiques fréquentistes (il se trouve que j'enseigne les deux). Cependant, cela réduit leur portée de pertinence et souligne également le rôle crucial de votre théorie explicative initiale, qui détermine vraiment la possibilité que votre modèle possède des propriétés causales.

— Fr.
source

+1 pour les liens vers le manuel, mentionnant la colinéarité et la FIV, et les solutions spécifiques et même les implémentations dans R. Je suis curieux d'entendre votre opinion sur la question de savoir si les données elles-mêmes ne sont pas adaptées à l'analyse de régression - j'ai édité la question ci-dessus pour refléter que ce sont des mesures d'un réseau.

— rd108

Désolé pour la réponse tardive, mais je sais malheureusement trop peu sur le sujet pour répondre que vous utilisez la bonne technique. Je suppose que SNA contient d'autres outils qui vous aideront (par exemple modéliser différentes mesures de centralité lorsque vous supprimez une combinaison de vos quatre nœuds).

— Fr.

5

Si vous voulez voir si les variables indépendantes sont corrélées, c'est facile - testez simplement les corrélations, par exemple avec PROC CORR dans SAS, ou cor dans R, ou quoi que ce soit dans le package que vous utilisez.

Vous pouvez cependant vouloir tester la colinéarité à la place ou en plus.

Mais ce n'est qu'une partie du problème de la causalité. Plus problématique est qu'une variable qui N'EST PAS dans vos données est impliquée. Exemples classiques:

Les étudiants qui embauchent des tuteurs obtiennent de moins bonnes notes que les étudiants qui n'engagent pas de tuteurs.

Le montant des dégâts causés par un incendie est fortement lié au nombre de pompiers qui se présentent.

et (mon préféré)

si vous régressez le QI sur le signe astrologique et l'âge chez les enfants de 5 à 12 ans, il y a une interaction significative et un effet significatif du signe sur le QI, mais uniquement chez les jeunes enfants.

Raisons: 1. Oui. Parce que les étudiants qui obtiennent de très bonnes notes ont tendance à ne pas engager de tuteurs en premier lieu

Oui, car les incendies plus importants font plus de dégâts et font plus de pompiers
La quantité d'école (en mois) qu'un enfant a eu dépend du mois de naissance. Les systèmes scolaires ont des limites d'âge. Ainsi, un enfant de 6 ans peut avoir eu 11 mois de plus d'école qu'un autre de 6 ans.

Et tout cela sans entrer dans la philosophie!

— Peter Flom
source

2

La relation entre la causalité et l'association consiste essentiellement à répondre à la question suivante:

Quoi d'autre, à part l'hypothèse de la relation causale, aurait pu amener et à être liés l'un à l'autre? $X$ $Y$

Tant que la réponse à cette question n'est pas "rien", vous ne pouvez parler que de manière définitive de l'association. Il peut toujours y avoir une relation «causale» proposée est en fait un cas spécial de la relation causale «correcte» - c'est ce qui s'est passé entre la théorie de la gravité de Newton et celle d'Einstein, je pense. La relation causale de Newton était un cas particulier de la théorie d'Einstein. Et sa théorie sera probablement un cas particulier d'une autre théorie.

De plus, toute erreur dans vos données supprime toute chance d'une relation causale définie. En effet, l'expression "A provoque B" est en quelque sorte un lien déductif entre A et B. Tout ce que vous avez à faire pour réfuter cette hypothèse est de trouver 1 cas où B n'est pas présent mais A est présent (car alors A est vrai , mais cela devrait signifier que B est également vrai - mais nous avons observé B faux).

Dans un contexte de régression, il est beaucoup plus constructif de penser à la prédiction qu'à l'interprétation des coefficients lorsqu'on examine la causalité. Donc, si vous avez vraiment une bonne raison de penser que la variable quatre est la "cause principale" de la variable (votre variable dépendante), alors vous devriez pouvoir prédire avec une quasi-certitude en utilisant la variable quatre. Si vous ne pouvez pas le faire, alors il est inapproprié de conclure que la variable quatre causes . Mais si vous pouvez faire cette prédiction avec une quasi-certitude en utilisant les quatre variables - cela indique que des combinaisons particulières "provoquent" $Y$ $Y$ $Y$ $Y$ . Et chaque fois que vous proposez une relation de cause à effet, vous devrez presque certainement le "prouver" en reproduisant vos résultats avec de nouvelles données - vous devrez être en mesure de prédire quelles données seront vues et être correct à ce sujet.

Vous avez également besoin d'une sorte de théorie physique sur le "mécanisme causal" (lorsque j'appuie sur ce bouton, la lumière s'allume, lorsque j'appuie sur ce bouton, la lumière change de couleur, etc.). Si tout ce que vous avez, c'est que le "coefficient de régression était de 0,7", cela ne sert pas à grand-chose pour établir un mécanisme causal qui est à l'œuvre.

— probabilitéislogique
source

1

Je ne sais pas dans quel domaine votre travail se situe, donc cela peut ou peut ne pas être utile - mais je suis plus familier avec l'utilisation de SPSS avec des constructions psychologiques. D'après mon expérience, si j'ai quelques variables prédisant une variable de résultat (ou une variable dépendante) dans une régression, et que j'ai une ou plusieurs variables indépendantes qui apparaissent comme des prédicteurs significatifs, l'étape suivante consiste à voir celles qui sont plus incrémentielles que autres. Une façon d'aborder cela est la régression hiérarchique. Cela répond essentiellement à la question «Si j'ai déjà la« variable quatre »pour prédire ma variable de résultat, l'une des autres variables fournit-elle une augmentation statistiquement significative du pouvoir prédictif? SPSS a une façon assez claire d'analyser cela, comme je suis sûr que R et SAS le font aussi. Donc, Je pense que la régression hiérarchique pourrait être votre prochaine étape pour découvrir si la «variable quatre» est vraiment votre meilleur pari pour prédire votre facteur de résultat. Les autres qui ont répondu ont fourni une bonne discussion sur les problèmes de corrélation-causalité, donc je vais laisser ça ... Bonne chance!

— Travis
source