Cela ressemble à l'exigence standard "supprimer un mannequin" lorsque des caractéristiques binaires sont incluses dans la régression linéaire - car sinon, nous obtiendrons une multicolinéarité parfaite et aucune solution.
Supposons que vous avez trois sous-groupes, séparés par l'âge: Y (jeune), UNE (dult), O (ld). Vous avez des raisons de croire que l'effet du traitement est en corrélation avec le groupe d'âge et vous souhaitez contrôler cette association. Si vous incluez trois variables factices dans la régression, vous obtiendrez une parfaite mutlicolinéarité, car si vous additionnez ces trois colonnes de la matrice de régression, vous obtenez une série de valeurs déjà présentes dans la matrice. , puisqu’il existe déjà un terme constant et donc un régresseur constitué d’une série d’On.
Dans de tels cas, nous excluons de la matrice des régresseurs l’un des trois mannequins (pour de nombreuses raisons, il est ne pas une bonne idée de supprimer le terme constant au lieu d’un des nuls).
Cela a pour effet que l'interprétation des résultats devient conditionnelle au groupe dont nous avons exclu la valeur factice: si, disons, nous spécifions
$$ y = \ beta_0 + \ beta_1w + \ gamma_1A + \ gamma_2O + e $$
alors $ \ gamma_1 $ mesures combien plus (ou moins, si négatif) être adulte affecte le résultat, comparé à être jeune, et $ \ gamma_2 $ de façon analogue à vieux.
Des situations de multicolinéarité parfaite (ou presque) peuvent néanmoins se produire même dans cette approche, en fonction également de la nature et de la distribution des valeurs de la variable dépendante. Si la variable dépendante est également binaire, de telles possibilités augmentent, car nous pouvons avoir des phénomènes de "séparation complète / prédiction parfaite", etc.
En général, l'inclusion de contrôles dans les régressions de traitement est une approche standard et très raisonnable. Comprenant nuls en tant que témoins, peuvent avoir les complications susmentionnées.