Comment exactement "contrôler pour d'autres variables"?


141

Voici l'article qui a motivé cette question: L'impatience fait-elle grossir?

J'ai aimé cet article et il illustre bien le concept de «contrôle des autres variables» (QI, carrière, revenu, âge, etc.) afin de mieux isoler la relation réelle entre les deux variables en question.

Pouvez-vous m'expliquer comment vous contrôlez réellement les variables d'un jeu de données typique?

Par exemple, si vous avez 2 personnes avec le même niveau d'impatience et le même IMC, mais des revenus différents, comment traitez-vous ces données? Les catégorisez-vous en différents sous-groupes qui ont un revenu, une patience et un IMC similaires? Mais, finalement, il y a des dizaines de variables à contrôler pour (QI, carrière, revenu, âge, etc.) Comment ensuite agrègez-vous (potentiellement) des centaines de sous-groupes? En fait, j'ai l'impression que cette approche est en train d'aboyer le mauvais arbre, maintenant que je l'ai verbalisée.

Merci d'avoir fait toute la lumière sur quelque chose que je voulais approfondir depuis quelques années ...!


3
Epi & Bernd, Merci beaucoup d'avoir essayé de répondre à cette question. Malheureusement, ces réponses sont un grand bond en avant de ma question et sont au-dessus de ma tête. Peut-être que c’est parce que je n’ai pas d’expérience avec R, et seulement une base statistique 101. Tout comme les commentaires sur votre enseignement, une fois que vous avez fait abstraction de votre IMC, de votre âge, de votre impatience, etc. pour "covariable" et autres, vous m'avez totalement perdue. La génération automatique de pseudo-données n'a pas non plus été utile pour clarifier les concepts. En fait, cela a empiré les choses. Il est difficile d'apprendre sur des données factices sans signification intrinsèque, à moins que vous ne sachiez déjà que le principe est expliqué (c'est-à-dire: le professeur sait que je
JackOfAll,

7
Merci d'avoir posé cette question d'une importance fondamentale, @JackOfAll - le site serait incomplet sans une question de ce type - j'ai "favorisé" celui-ci. Les réponses ici ont été très utiles pour moi et, apparemment, pour beaucoup d’autres basées sur le nombre de votes positifs. Si, après avoir réfléchi, vous avez trouvé les réponses utiles vous (ou les réponses à une de vos questions), je vous encourage à utiliser vos upvotes et d'accepter une réponse si vous le trouvez définitif. Cela peut être fait en cliquant sur la petite cloche pointant vers le haut, à côté de la réponse et de la coche.
Macro

4
Ce n'est pas une réponse complète ni quoi que ce soit, mais je pense que cela vaut la peine de lire "Mettons les régressions et les probits des ordures à la poubelle là où ils appartiennent" de Chris Achen. (Lien PDF: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Ceci s'applique également aux approches bayésienne et frequentiste. Le simple fait d'ajouter des termes à votre configuration n'est pas suffisant pour "contrôler" les effets, mais malheureusement, c'est ce qui passe sous contrôle dans de nombreux ouvrages.
ely

9
Vous demandez " comment le logiciel informatique contrôle mathématiquement toutes les variables en même temps ". Vous dites également "J'ai besoin d'une réponse qui ne comporte pas de formules". Je ne vois pas comment il est possible de vraiment faire les deux en même temps. Du moins pas sans risque sérieux de vous laisser avec une intuition imparfaite.
Glen_b

2
Je suis surpris que cette question n'ait pas reçu plus d'attention. Je suis d'accord avec le commentaire du PO selon lequel les autres questions sur le site ne couvrent pas exactement le problème spécifique qui est soulevé ici. @Jen, la réponse très courte à votre (deuxième) question est que les covariables multiples sont en réalité des biais partiels simultanément et non de manière itérative comme vous le décrivez. Je vais maintenant réfléchir à ce à quoi pourrait ressembler une réponse plus détaillée et intuitive à ces questions.
Jake Westfall

Réponses:


124

Il y a plusieurs façons de contrôler les variables.

Le plus simple, et celui que vous avez proposé, est de stratifier vos données pour obtenir des sous-groupes présentant des caractéristiques similaires. Il existe ensuite des méthodes pour regrouper ces résultats afin d’obtenir une seule "réponse". Cela fonctionne si vous souhaitez contrôler un très petit nombre de variables, mais comme vous l'avez justement découvert, cela s'efface rapidement lorsque vous divisez vos données en fragments de plus en plus petits.

Une approche plus courante consiste à inclure les variables que vous souhaitez contrôler dans un modèle de régression. Par exemple, si vous avez un modèle de régression qui peut être décrit de manière conceptuelle comme suit:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

L'estimation que vous obtiendrez pour Impatience sera l'effet de l'Impatience au niveau des autres covariables (la régression vous permet essentiellement de lisser les endroits où vous ne possédez pas beaucoup de données (le problème de l'approche de la stratification), bien que cela devrait être fait Avec précaution.

Il existe des moyens encore plus sophistiqués de contrôler les autres variables, mais les chances sont quand quelqu'un dit "contrôlé pour d'autres variables", ils signifient qu'ils ont été inclus dans un modèle de régression.

Bon, vous avez demandé un exemple sur lequel vous pouvez travailler, pour voir comment cela se passe. Je vous guiderai étape par étape. Tout ce dont vous avez besoin est une copie de R installée.

Premièrement, nous avons besoin de données. Coupez et collez les fragments de code suivants dans R. N'oubliez pas qu'il s'agit d'un exemple artificiel que j'ai inventé sur-le-champ, mais il montre le processus.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

Ce sont vos données. Notez que nous connaissons déjà la relation entre le résultat, l'exposition et la covariable - tel est le sens de nombreuses études de simulation (dont il s'agit d'un exemple extrêmement basique. Vous commencez avec une structure que vous connaissez et vous vous assurez que votre méthode peut vous obtenez la bonne réponse.

Maintenant, passons au modèle de régression. Tapez ce qui suit:

lm(outcome~exposure)

Avez-vous eu une Interception = 2.0 et une exposition = 0.6766? Ou quelque chose de proche, étant donné qu'il y aura une variation aléatoire des données? Bien - cette réponse est fausse. Nous savons que c'est faux. Pourquoi c'est faux? Nous n'avons pas réussi à contrôler une variable qui affecte le résultat et l'exposition. C'est une variable binaire, faites-en ce que vous voulez - sexe, fumeur / non-fumeur, etc.

Maintenant, lancez ce modèle:

lm(outcome~exposure+covariate)

Cette fois, vous devriez obtenir des coefficients Intercept = 2,00, une exposition = 0,50 et une covariable de 0,25. Comme nous le savons, c’est la bonne réponse. Vous avez contrôlé d'autres variables.

Maintenant, que se passe-t-il lorsque nous ne savons pas si nous avons pris en compte toutes les variables dont nous avons besoin (nous ne le faisons jamais vraiment)? C'est ce qu'on appelle la confusion résiduelle et c'est une préoccupation dans la plupart des études d'observation - que nous avons contrôlé de manière imparfaite et que notre réponse, bien que proche de la droite, n'est pas exacte. Est-ce que ça aide plus?


Merci. Quelqu'un connaît-il un exemple simple basé sur la régression en ligne ou dans un manuel que je peux travailler?
JackOfAll

@JackOfAll Il existe probablement des centaines d'exemples de ce type - quels domaines / types de questions vous intéressent et quels logiciels pouvez-vous utiliser?
Fomite

Eh bien, tout exemple académique / artificiel me convient parfaitement. J'ai Excel, qui peut faire une régression multi-variable, correct? Ou ai-je besoin de quelque chose comme R pour le faire?
JackOfAll

10
+1 Pour répondre à cela sans la négativité que j'utiliserais. :) En langage courant, le contrôle des autres variables signifie que les auteurs les ont lancées dans la régression. Cela ne signifie pas vraiment ce qu'ils pensent que cela signifie s'ils n'ont pas validé le fait que les variables sont relativement indépendantes et que toute la structure du modèle (généralement une sorte de GLM) est bien fondée. En bref, j’estime que si chaque personne utilise cette expression, cela signifie qu’elle n’a que très peu d’indices sur les statistiques et que l’on devrait recalculer les résultats en utilisant la méthode de stratification que vous avez proposée.
Itérateur

7
@SibbsGambling Vous remarquerez que le questionneur d'origine a demandé un exemple simple et travaillé.
Fomite

57
  1. introduction

    J'aime la réponse de @ EpiGrad (+1) mais laissez-moi prendre un point de vue différent. Dans ce qui suit, je fais référence à ce document PDF: "Analyse de régression multiple: Estimation" , qui comporte une section sur "Une interprétation de la régression multiple avec une interprétation partielle" (p. 83f.). Malheureusement, je n'ai aucune idée de qui est l'auteur de ce chapitre et je l'appellerai REGCHAPTER. Une explication similaire se trouve dans Kohler / Kreuter (2009), "Analyse de données à l'aide de Stata" , chapitre 8.2.3 "Que signifie" sous contrôle "?

    Je vais utiliser l'exemple de @ EpiGrad pour expliquer cette approche. Le code R et les résultats figurent en annexe.

    Il convient également de noter que le "contrôle des autres variables" n'a de sens que lorsque les variables explicatives sont modérément corrélées (colinéarité). Dans l'exemple susmentionné, la corrélation produit-moment entre exposureet covariateest de 0,50, c'est-à-dire

    > cor(covariate, exposure)
    [1] 0.5036915
    
  2. Résidus

    Je suppose que vous avez une compréhension de base du concept de résidus dans l'analyse de régression. Voici l'explication de Wikipedia : "Si l'on effectue une régression sur certaines données, les déviations des observations de variable dépendante par rapport à la fonction ajustée sont les résidus".

  3. Que signifie "sous contrôle"?

    En contrôlant pour la variable covariate, l’effet (poids de régression) de exposuresur outcomepeut être décrit comme suit (je suis négligé et saute la plupart des indices et tous les chapeaux, veuillez vous reporter au texte mentionné ci-dessus pour une description précise):

    β1=residi1yiresidi12

    residi1 sont les résidus lorsque nous régressons exposuresur covariate, c'est-à-dire

    exposure=const.+βcovariatecovariate+resid

    Les "résidus [..] sont la partie de qui n'est pas corrélée avec . [...] Ainsi, mesure la relation d'échantillon entre et après que a été partialled out "(REGCHAPTER 84). "Partialled out" signifie "contrôlé pour".xi1xi2β^1yx1x2

    Je vais démontrer cette idée en utilisant les exemples de données de @ EpiGrad. Tout d' abord, je régresse exposuresur covariate. Puisque je ne m'intéresse qu'aux résidus lmEC.resid, j'omets la sortie.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)
    

    La prochaine étape consiste à régresser outcomesur ces résidus ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]
    

    Comme vous pouvez le constater, le poids de régression pour lmEC.resid(voir la colonne Estimation, ) dans cette régression simple est égal au poids de régression multiple de , qui est également (voir la réponse de @ EpiGrad ou la sortie R au dessous de).βlmEC.resid=0.50covariate0.50

appendice

Code R

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

R sortie

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
Ce chapitre ressemble à Bébé Wooldridge (Econométrie introductive: une approche moderne de Jeffrey M. Wooldridge)
Dimitriy V. Masterov

2
Je ne comprends peut-être pas bien quelque chose, mais pourquoi n’avez-vous pas besoin de régresser également le résultat de la covariable, puis de régresser enfin les résidus de résultat sur les résidus d’exposition?
Hlinee

@hlinee a raison. Pouvez-vous expliquer pourquoi vous ne faites pas cela?
Fourchelangue

41

Bien sûr, quelques calculs seront nécessaires, mais ce n’est pas beaucoup: Euclid l’aurait bien compris. Tout ce que vous devez vraiment savoir, c'est comment ajouter et redimensionner des vecteurs. Bien que cela s'appelle de nos jours "algèbre linéaire", il suffit de la visualiser en deux dimensions. Cela nous permet d'éviter la machinerie matricielle de l'algèbre linéaire et de nous concentrer sur les concepts.


Une histoire géométrique

Dans la première figure, est la somme de et de . (Un vecteur mis à l'échelle par un facteur numérique ; les lettres grecques (alpha), (bêta) et (gamma) feront référence à ces facteurs d'échelle numérique.)yy1αx1x1ααβγ

Figure 1

Cette figure a en fait commencé avec les vecteurs d'origine (représentés par des lignes ) et . La "correspondance" des moindres carrés de à est trouvée en prenant le multiple de qui se rapproche le plus de dans le plan de la figure. C'est ainsi que été trouvé. En retirant cette correspondance de reste , le résidu de par rapport à . (Le point " " indiquera systématiquement quels vecteurs ont été "appariés", "sortis" ou "contrôlés pour.")x1yyx1x1yαyy1yx1

Nous pouvons associer d'autres vecteurs à . Voici une image où été mis en correspondance avec , en l'exprimant sous la forme d'un multiple de et de son résidu :x1x2x1βx1x21

Figure 2

(Peu importe que le plan contenant et puisse différer du plan contenant et : ces deux figures sont obtenues indépendamment l'une de l'autre. Il est garanti qu'elles ont en commun le vecteur .) De même, un nombre quelconque des vecteurs peuvent être associés à .x1x2x1yx1x3,x4,x1

Considérons maintenant le plan contenant les deux résidus et . Je vais orienter l'image pour rendre horizontal, tout comme j'ai orienté les images précédentes pour rendre horizontale, car cette fois jouera le rôle de matcher:y1x21x21x1x21

figure 3

Notez que dans chacun des trois cas, le résidu est perpendiculaire à l’allumette. (Si ce n'était pas le cas, nous pourrions ajuster la correspondance pour qu'elle soit encore plus proche de , ou .)yx2y1

L’idée principale est qu’au moment où nous arrivons au dernier chiffre, les deux vecteurs impliqués ( et ) sont déjà perpendiculaires à , par construction. Ainsi, tout ajustement ultérieur sur implique des modifications qui sont toutes perpendiculaires à . En conséquence, la nouvelle correspondance et le nouveau résidu restent perpendiculaires à .x21y1x1y1x1γx21y12x1

(Si d'autres vecteurs sont impliqués, nous procéderons de la même manière pour faire correspondre leurs résidus à .)x31,x41,x2

Il y a encore un point important à souligner. Cette construction a produit un résidu perpendiculaire à et . Cela signifie que est également le résidu de l' espace (royaume euclidien à trois dimensions) couvert par et . C'est-à-dire que ce processus en deux étapes consistant à mettre en correspondance et à prendre les résidus doit avoir trouvé l'emplacement dans le plan plus proche de . Puisque dans cette description géométrique, peu importe lequel de et est arrivé en premier, nous concluons quey12x1x2y12x1,x2,yx1,x2yx1x2si le processus avait été effectué dans l'ordre inverse, en commençant par tant que correcteur, puis en utilisant , le résultat aurait été identique.x2x1

(S'il y a des vecteurs supplémentaires, nous poursuivrons ce processus "à l'aide d'un matcher" jusqu'à ce que chacun de ces vecteurs ait eu son tour d'être le matcher. Dans tous les cas, les opérations seraient les mêmes que celles présentées ici et se produiraient toujours avion .)


Application à la régression multiple

Ce processus géométrique a une interprétation de régression multiple directe, car les colonnes de nombres agissent exactement comme des vecteurs géométriques. Ils ont toutes les propriétés requises des vecteurs (axiomatiquement) et peuvent donc être pensés et manipulés de la même manière avec une précision mathématique et une rigueur parfaites. Dans une régression multiple des variables de réglage avec , , et , l'objectif est de trouver une combinaison de et ( etc ) qui se rapproche le plus de . Géométriquement, toutes ces combinaisons de et ( etc.X1X2,YX1X2YX1X2) correspondent aux points de l’ espace . L'ajustement de multiples coefficients de régression n'est rien de plus que la projection de vecteurs ("correspondants"). L'argument géométrique a montré queX1,X2,

  1. La correspondance peut être faite séquentiellement et

  2. L'ordre dans lequel l'appariement est fait n'a pas d'importance.

Le processus de "retrait" d'un matcher en remplaçant tous les autres vecteurs par leurs résidus est souvent appelé "contrôle" pour le matcher. Comme nous l'avons vu dans les figures, une fois le contrôle effectué, tous les calculs ultérieurs effectuent des ajustements perpendiculaires à ce contrôle. Si vous le souhaitez, vous pouvez envisager de "contrôler" comme "une comptabilité (au sens le plus petit) pour la contribution / influence / effet / association d'un ajusteur sur toutes les autres variables".


Références

Vous pouvez voir tout cela en action avec les données et le code de travail dans la réponse à l' adresse https://stats.stackexchange.com/a/46508 . Cette réponse pourrait intéresser davantage les personnes qui préfèrent l'arithmétique aux images d'avion. (L'arithmétique permettant d'ajuster les coefficients au fur et à mesure que les appariements sont importés est tout de même simple.) Le langage de correspondance est celui de Fred Mosteller et John Tukey.


1
On trouvera d'autres illustrations dans ce sens dans le livre de Wicken "The Geometry of Multivariate Statistics" (1994). Quelques exemples sont dans cette réponse .
Caracal

2
@Caracal Merci pour les références. Au départ, j'avais imaginé une réponse utilisant des diagrammes tels que ceux de votre réponse - qui complèteraient merveilleusement ma réponse ici -, mais après les avoir créés, j'ai estimé que des figures pseudo-3D pourraient être trop complexes et ambiguës pour convenir parfaitement. J'ai été heureux de constater que l'argument pouvait être entièrement réduit aux opérations vectorielles les plus simples du plan. Il peut également être intéressant de souligner qu’un centrage préalable des données n’est pas nécessaire, car il est géré en incluant un vecteur constant non nul parmi les . xi
whuber

1
J'aime cette réponse parce qu'elle donne beaucoup plus d'intuition que l'algèbre. BTW, pas sûr si vous avez vérifié la chaîne youtube de ce type . J'ai beaucoup aimé ça
Haitao Du

3

Il existe jusqu'ici une excellente discussion sur l' ajustement des covariables comme moyen de "contrôler les autres variables". Mais je pense que ce n'est qu'une partie de l'histoire. En fait, il existe de nombreuses (autres) stratégies basées sur la conception, les modèles et l’apprentissage automatique pour traiter l’impact d’un certain nombre de variables de confusion possibles. Ceci est un bref aperçu de certains des sujets les plus importants (non-ajustement). Bien que l'ajustement soit le moyen le plus largement utilisé pour "contrôler" d'autres variables, je pense qu'un bon statisticien devrait comprendre ce qu'il fait (et ne fait pas) dans le contexte d'autres processus et procédures.

Correspondant à:

L'appariement est une méthode de conception d'une analyse par paires dans laquelle les observations sont regroupées en ensembles de 2 qui sont par ailleurs similaires dans leurs aspects les plus importants. Par exemple, vous pouvez échantillonner deux personnes qui concordent dans leurs études, leur revenu, leur ancienneté professionnelle, leur âge, leur état matrimonial, etc., mais qui sont discordantes quant à leur impatience. Pour les expositions binaires, le simple test du couple apparié suffit à vérifier une différence moyenne de leur IMC en contrôlant toutes les caractéristiques correspondantes. Si vous modélisez une exposition continue, une mesure analogue serait un modèle de régression sur l'origine des différences. Voir Carlin 2005

E[Y1Y2]=β0(X1X2)

Pondération

La pondération est une autre analyse univariée qui modélise l'association entre un prédicteur continu ou binaire et un résultat sorte que la distribution des niveaux d'exposition soit homogène entre les groupes. Ces résultats sont généralement présentés sous forme standardisée, tels que la mortalité standardisée selon l' âge pour deux pays ou plusieurs hôpitaux. La standardisation indirecte calcule la distribution des résultats attendus à partir des taux obtenus dans une population "témoin" ou "saine" projetée vers la distribution des strates de la population de référence. La normalisation directe va dans l'autre sens. Ces méthodes sont généralement utilisées pour un résultat binaire. Pondération du score de propensionXYcomptes de la probabilité d'une exposition binaire et contrôles pour ces variables à cet égard. Cela ressemble à la standardisation directe pour une exposition. Voir Rothman, Modern Epidemiology, 3e édition.

Randomisation et Quasirandomisation

C'est un point subtil, mais si vous êtes réellement capable de randomiser les gens dans certaines conditions expérimentales, l'impact des autres variables est atténué. C'est une condition remarquablement plus forte, car vous n'avez même pas besoin de savoir quelles sont ces autres variables. En ce sens, vous avez "contrôlé" leur influence. Ceci n’est pas possible dans la recherche observationnelle, mais il s’avère que les méthodes de score de propension créent une simple mesure probabiliste de l’exposition permettant de pondérer, d’ajuster ou de faire correspondre les participants de sorte qu’ils puissent être analysés de la même manière qu’une étude quasi randomisée. . Voir Rosenbaum, Rubin 1983 .

Microsimulation

Une autre façon de simuler des données qui auraient pu être obtenues à partir d'une étude randomisée consiste à effectuer une microsimulation. Ici, on peut réellement attirer leur attention sur des modèles plus grands et plus sophistiqués, à apprentissage automatique. Judea Pearl a inventé le terme " modèles Oracle ", un terme qui désigne des réseaux complexes capables de générer des prévisions et des prévisions pour un certain nombre de caractéristiques et de résultats. Il s'avère que l'on peut "plier" les informations d'un tel modèle Oracle pour simuler les résultats dans une cohorte équilibrée de personnes représentant une cohorte randomisée, équilibrée dans leur distribution de "variable de contrôle" et utilisant de simples routines de test t pour évaluer la magnitude et précision des différences possibles. Voir Rutter, Zaslavsky et Feuer 2012

La mise en correspondance, la pondération et l'ajustement de la covariable dans un modèle de régression estiment tous les mêmes associations et peuvent donc être considérés comme des moyens de "contrôler" d'autres variables .


Totalement sur ma tête.
JackOfAll

C'est une réponse à la question qui a été posée, la bonne discussion à ce jour est plutôt partiale en faveur de l'ajustement dans les modèles multivariés.
AdamO

Les modèles multivariés, l'appariement, etc. sont toutes des techniques valables, mais quand un chercheur utilise-t-il généralement une technique plutôt qu'une autre?
mnmn

-1

Le logiciel ne contrôle pas littéralement les variables. Si vous êtes familier avec la notation matricielle de la régression , vous vous souviendrez peut-être que la solution des moindres carrés est . Ainsi, le logiciel évalue cette expression numériquement en utilisant des méthodes de calcul algébrique linéaire.Y=Xβ+εb=(XTX)1XTY


4
Merci d'avoir saisi cette opportunité pour offrir cette information. Pour que la réponse réponde aux besoins exprimés dans la question, il nous faudrait connaître le sens du premier dans la deuxième expression et le sens de la deuxième. Je comprends que la pente est le changement d’un axe par rapport au changement de l’autre. N'oubliez pas que la notation est un langage spécial créé et appris à l'aide d'un vocabulaire non-notionnel. Pour atteindre les personnes qui ne connaissent pas cette langue, il faut utiliser d'autres mots, et c'est le défi constant de la transmission des connaissances dans plusieurs disciplines.
Jen

2
Une fois que vous entrez dans les régressions multivariées, il n’est pas possible de procéder sans algèbre linéaire. Le lien Wiki contient toutes les descriptions des variables. Ici, je peux dire que désigne une transposée de la matriceVous devez apprendre comment la matrice de conception est construite. C'est trop long pour l'expliquer ici. Lisez le wiki que j'ai posté, il contient beaucoup d'informations. J'ai peur que si vous comprenez l'algèbre linéaire, vous ne pourrez pas répondre à votre question de manière significative. XX
Aksakal
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.