Quel est l'intérêt d'une régression univariée avant une régression multivariée?


13

Je travaille actuellement sur un problème dans lequel nous avons un petit ensemble de données et nous nous intéressons à l'effet de causalité d'un traitement sur le résultat.

Mon conseiller m'a demandé d'effectuer une régression univariée sur chaque prédicteur avec le résultat comme réponse, puis l'affectation de traitement comme réponse. C'est-à-dire qu'on me demande d'ajuster une régression avec une variable à la fois et de faire un tableau des résultats. J'ai demandé "pourquoi devrions-nous faire cela?", Et la réponse a été quelque chose à l'effet de "nous sommes intéressés par quels prédicteurs sont associés à l'affectation de traitement et au résultat, car cela indiquerait probablement un confondant". Mon conseiller est un statisticien formé, pas un scientifique dans un domaine différent, donc j'ai tendance à leur faire confiance.

Cela a du sens, mais il n'est pas clair comment utiliser le résultat de l'analyse univariée. Ne ferait-il pas des choix de sélection de modèle à partir de cela un biais significatif des estimations et des intervalles de confiance étroits? Pourquoi devrait-on faire ça? Je suis confus et mon conseiller est assez opaque sur la question lorsque je l'ai soulevée. Quelqu'un at-il des ressources sur cette technique?

(NB: mon conseiller a dit que nous n'utilisons PAS de valeurs p comme seuil, mais que nous voulons considérer "tout".)


6
Si, par «régression univariée», votre instructeur incluait le dessin d'un nuage de points, alors ce serait un bon conseil. Et comme aucune régression dont vous vous souciez ne devrait être effectuée sans tracé, vous obtiendrez des informations utiles. Faites-le tout à la fois, si vous le pouvez, avec une matrice de nuage de points, et montrez des lissages robustes avec eux. Les avantages seront évidents lorsque vous verrez les différentes manières dont vos variables peuvent s'écarter de l'affichage de relations linéaires.
whuber

1
Que se passe-t-il si les données de réponse sont binaires et que nous utilisons un glm avec un lien logit? Votre explication clarifie certainement pour le cas linéaire, et maintenant que j'y pense, l'utilisation de nuages ​​de points serait naturelle
Marcel

5
J'avais peur que vous demandiez cela :-). En fait, un bon lissage peut tout de même fournir un excellent aperçu. Cela aide à faire trembler la réponse afin que vous puissiez distinguer sa distribution. Voici un exemple d'un tel complot: stats.stackexchange.com/a/14501/919 . J'illustre une autre solution sur stats.stackexchange.com/a/138660/919 .
whuber

3
Cette régression univariée avant la technique de régression multivariée est appelée "sélection de variable ciblée" dans le livre de Hosmer et Lemeshow "Régression Logistique Appliquée"
Great38

7
Méfiez-vous - une variable peut ne montrer aucune relation dans une régression non variable, mais être importante dans la relation multivariée.
Glen_b -Reinstate Monica

Réponses:


3

Le contexte causal de votre analyse est un qualificatif clé dans votre question. Dans la prévision, l'exécution de régressions univariées avant de multiples régressions dans l'esprit de la "méthode de sélection ciblée" suggérée par Hosmer et Lemenshow a un objectif. Dans votre cas, lorsque vous créez un modèle causal, l'exécution de régressions univariées avant d'exécuter plusieurs régressions a un objectif complètement différent. Permettez-moi de développer ce dernier.

Vous et votre instructeur devez avoir à l'esprit un certain graphique causal. Les graphiques causaux ont des implications testables. Votre mission est de commencer avec l'ensemble de données que vous avez et de revenir au modèle causal qui pourrait l'avoir généré. Les régressions univariées qu'il a suggérées que vous exécutez constituent très probablement la première étape du processus de test des implications du graphe causal que vous avez en tête. Supposons que vous pensez que vos données ont été générées par le modèle causal illustré dans le graphique ci-dessous. Supposons que vous soyez intéressé par l'effet causal de D sur E. Le graphique ci-dessous suggère une multitude d'implications testables, telles que:

  • E sont D sont probablement dépendants
  • E et A sont probablement dépendants
  • E et C sont probablement dépendants
  • E et B sont probablement dépendants
  • E et N sont probablement indépendants

entrez la description de l'image ici

J'ai mentionné que ce n'est que la première étape du processus de recherche causale parce que le vrai plaisir commence une fois que vous commencez à exécuter plusieurs régressions, à conditionner différentes variables et à tester si le résultat de la régression est cohérent avec l'implication du graphique. Par exemple, le graphique ci-dessus suggère que E et A doivent être indépendants une fois que vous conditionnez sur D. En d'autres termes, si vous régressez E sur D et A et constatez que le coefficient sur A n'est pas égal à zéro, vous conclurez que E dépend de A, après avoir conditionné D, et donc que le graphe causal doit être faux. Il vous donnera même des conseils sur la façon de modifier votre graphique causal, car le résultat de cette régression suggère qu'il doit y avoir un chemin entre A et E qui n'est pas séparé par d par D.


1

Avant d'essayer de répondre, j'aimerais souligner que ce type de données et leur distribution peuvent affecter la façon dont vous les évaluez / régressez / les classifiez.

Vous pouvez également rechercher ici la méthode que votre conseiller peut souhaiter que vous utilisiez.

Un peu d'histoire. Bien que l'utilisation d'un outil de sélection de modèle soit une possibilité, vous devez toujours être en mesure de dire pourquoi un prédicteur a été utilisé ou omis. Ces outils peuvent être une boîte noire. Vous devez bien comprendre vos données et pouvoir expliquer pourquoi un prédicteur particulier a été sélectionné. (Surtout, je suppose pour un projet de thèse / master.)

Par exemple, regardez le prix des maisons et l'âge. Le prix des maisons diminue généralement avec l'âge. Par conséquent, lorsque vous voyez une vieille maison avec un prix élevé dans vos données, cela ressemblerait à une valeur aberrante à supprimer, mais ce n'est pas le cas.

En ce qui concerne (NB: mon conseiller a dit que nous n'utilisons PAS de valeurs p comme seuil, mais que nous voulons considérer "tout".) Les valeurs p ne sont pas le tout et mettent fin à tout, mais elles peuvent être utiles . Les algorithmes / programmes de rappel sont limités et ne peuvent pas afficher l'image entière.

Quant à savoir pourquoi vous pourriez régresser univariée sur chaque prédicteur / traitement assigné.

Cela pourrait aider à sélectionner les prédicteurs à inclure dans le modèle multivarié de base. À partir de ce modèle de base, vous chercheriez alors à savoir si ces prédicteurs sont significatifs et doivent rester ou s'ils doivent être supprimés dans le but d'obtenir un modèle parcimonieux.

Ou il pourrait être pour vous de mieux comprendre les données.


1
Ma femme et moi avons acheté une vieille maison mais nous ne pouvions pas nous permettre une maison historique, donc votre exemple a un contre-exemple facile.
Nick Cox

Vrai. Je voulais parler du prix des maisons en fait. Comment les prix des maisons diminuent généralement avec l'âge. Par conséquent, lorsque vous voyez une vieille maison avec un prix élevé, cela ressemblerait à une valeur aberrante à supprimer. Je vais modifier ce point. THX.
Apocryphon

0

Je pense que votre superviseur vous demande d'effectuer une première analyse des données dans le but d'identifier si l'une des variables peut expliquer une fraction significative de la variance des données.

Une fois que vous avez conclu si l'une des variables peut expliquer une partie de la variabilité, vous pourrez alors évaluer comment elles fonctionnent ensemble, si elles sont colinéaires ou corrélées entre elles, etc. Dans une phase purement exploratoire pour avoir une analyse multivariée pourrait rendre une première évaluation plus difficile, car en construisant chaque variable, vous supprimeriez l'effet des autres. Il pourrait être plus difficile d'évaluer si l'une des variables pourrait expliquer une quelconque variation.


0

Cela peut être une approche pour comprendre les données, mais l'expérience montre que les prédictions varient lorsque vous utilisez tous les prédicteurs combinés et chacun un prédicteur un par un. C'est juste quelque chose que nous comprenons la prévisibilité des données et comprenons ce qui doit être fait pour les étapes futures.
J'ai vu à plusieurs reprises lorsque, pour toutes les variables, la valeur de p indique que certaines variables ne sont pas significatives mais avec ces variables non significatives seules, elles étaient suffisamment significatives. Cela est dû à un effet mixte: ce n'est pas que votre superviseur se trompe, mais pour comprendre les données, nous devons le faire.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.