Les valeurs insignifiantes des variables imbriquées ne doivent pas affecter votre modèle:
le desideratum crucial avec ce type d'analyse de données est que la nested
variable ne doit pas avoir d'impact sur le modèle si la explanatory
variable d' origine ne l'admet pas comme variable significative. En d'autres termes, le modèle doit être d'une forme qui ignore les valeurs dénuées de sens de la variable imbriquée . Il s'agit d'une exigence cruciale pour un modèle valide avec des variables imbriquées, car cela garantit que la sortie du modèle n'est pas affectée par des choix de codage arbitraires.
Modélisation avec des variables imbriquées: cette exigence est obtenue en plaçant la nested
variable dans le modèle uniquement comme une interaction avec la explanatory
variable d' origine , sans l'inclure comme effet principal. (Plus précisément, la variable imbriquée doit interagir avec une déclaration logique sur la variable explicative indiquant qu'il s'agit d'une variable significative.) Notez qu'il s'agit d'une exception à la règle générale selon laquelle les termes ne doivent pas être inclus comme interactions sans terme d'effet principal .
Prenons le cas général où la nested
variable n'a de sens que lorsqu'elle se explanatory
trouve dans un ensemble de valeurs A
. Dans ce cas, vous utiliseriez un formulaire modèle comme celui-ci:
response ~ 1 + explanatory + (explanatory %in% A):nested + ...
Dans le cas courant où votre explanatory
variable est une variable indicatrice (avec une valeur de 1 donnant naissance à une variable imbriquée significative), cette forme de modèle se simplifie comme suit:
response ~ 1 + explanatory + explanatory:nested + ...
Notez que dans ces énoncés de modèle, il n'y a pas de terme d'effet principal pour la nested
variable. C'est par conception --- la variable imbriquée ne devrait pas avoir un terme d'effet principal, car ce n'est pas une variable significative en l'absence d'une condition sur la variable explicative. Avec ce type de formulaire modèle, vous obtiendrez une estimation de l'effet de la variable explicative et une autre estimation de l'effet de la variable imbriquée.
Codage des variables imbriquées dans vos données: lorsque vous traitez des trames de données qui répertorient les variables pour la régression, il est nested
recommandé de coder les valeurs de la variable comme NA
dans les cas où elles ne découlent pas de manière significative de la variable explicative. Cela indique au lecteur qu'il n'y a pas de variable significative ici. Certains analystes codent ces variables avec d'autres valeurs, comme zéro, mais c'est généralement une mauvaise pratique, car elle peut être confondue avec une quantité significative.
Mathématiquement, si vous multipliez un nombre réel par zéro, vous obtenez zéro. Cependant, si vous codez, R
vous devez être prudent ici car le programme se multiplie 0:NA
pour donner NA
au lieu de 0
. Cela signifie que vous devrez peut-être recoder les NA
valeurs à zéro aux fins de l'ajustement du modèle, ou construire la matrice de conception pour le modèle afin que ces valeurs soient définies à zéro.
Cas où la variable de base est une fonction de la variable imbriquée: Une situation qui survient occasionnellement dans l'analyse de régression impliquant des variables imbriquées est le cas où la variable imbriquée a une quantité de détails suffisante pour déterminer entièrement la variable explicative initiale dont elle est issue - - c'est-à-dire que la variable explicative d'origine est fonction de la variable imbriquée. Un exemple de cela se produit dans cette question , où l'analyste a une variable indicatrice DrugA
pour savoir si un médicament a été pris ou non, et une variable imbriquée DrugA_Conc
pour la concentration du médicament. Dans cet exemple, cette dernière variable permet une valeur de concentration de zéro, ce qui équivaut au médicament non pris, et DrugA
est donc équivalent à DrugA_Conc != 0
.
Dans ces types de cas, le terme d'interaction entre la variable explicative et la variable imbriquée est fonctionnellement équivalent à la variable imbriquée, et il est donc possible (et généralement souhaitable) de supprimer complètement la variable explicative initiale du modèle, et d'utiliser simplement le variable imbriquée seule. C'est légitime dans ce cas, car les valeurs de la variable imbriquée déterminent la valeur de la variable explicative initiale. Nous avons noté ci-dessus qu'il est souvent approprié de coder des variables imbriquées comme NA
lorsque leurs conditions ne sont pas applicables. Si la condition découle d'une variable explicative qui est un indicateur et que l'indicateur correspond à l'utilisation de la variable imbriquée, l'événement nested != NA
est équivalent àexplanatory
. Dans de tels cas, il est possible de recoder la variable imbriquée afin que la variable explicative initiale ne soit pas du tout requise dans le modèle.
Notez que vous devez être prudent lorsque vous regardez cette situation. Même dans le cas où vous utilisez une variable explicative initiale qui est une variable indicatrice, il peut être utile à des fins d'interprétation de ne pas fusionner la variable explicative et la variable imbriquée. De plus, dans les cas où la variable explicative n'est pas une variable indicatrice, elle contiendra généralement des informations non contenues dans la variable imbriquée et ne peut donc pas être supprimée.