Supposons que vos quatre catégories soient des couleurs pour les yeux (code): marron (1), bleu (2), vert (3), noisette (4) - ignorer l'hétérochromie, violet, rouge, gris, etc. pour le moment.
En aucun cas (ce que je peux imaginer actuellement) ne voudrait-on dire que vert brun, ou que noisette bleu comme le suggèrent nos codes, même si et .= 3 ×= 2 ×3 = 3 × 14 = 2 × 2
Par conséquent (à moins que nous ne voulions, pour une raison quelconque , que ce sens se glisse dans nos analyses), nous devons utiliser une sorte de codage. Le codage factice en est un exemple, qui élimine de telles relations des histoires statistiques que nous voulons raconter sur la couleur des yeux. Le codage d'effet et le codage de Heckman sont d'autres exemples.
Mise à jour: votre exemple de deux variables pour quatre catégories ne correspond pas à ma compréhension de l'utilisation du terme "code fictif" qui implique généralement de remplacer catégories (disons 4) par k - 1 variables fictives (tri des observations par catégorie):kk - 1
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
Ici, la catégorie 4 est la catégorie de référence, en supposant qu'il existe une constante dans votre modèle, telle que:
y= β0+ β1ré1 + β2ré2 + β3ré3 + ε
où est la valeur moyenne de lorsque category = 4, et les termes associés à chaque mannequin indiquent par quel montant change de pour cette catégorie.β0yβyβ0
Si vous n'avez pas de terme constant ( ) dans le modèle, alors vous avez besoin d'un autre prédicteur "factice" (peut-être moins souvent appelé "variables indicatrices"), en fait les variables muettes se comportent alors chacune comme la constante du modèle pour chaque catégorie:β0
y= β1ré1 + β2ré2 + β3ré3 + β4ré4 + ε
Donc, cela permettrait de contourner la question de la création de relations quantitatives absurdes entre les codes de catégorie que je mentionne au début, mais pourquoi ne pas utiliser le codage user12331 comme vous le suggérez? Candidat de codage utilisateur12331 A:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
vous avez tout à fait raison de souligner que l' on peut représenter 4 valeurs en utilisant 2 variables binaires (c'est-à-dire deux bits). Malheureusement, une approche à ce sujet (code1 pour les catégories 1 et 2 et code2 pour les catégories 3 et 4) laisse l'ambiguïté indiquée par les points d'interrogation: quelles valeurs y iraient?!
Eh bien, qu'en est-il d'une deuxième approche, appelez-le candidat B1212 codage utilisateur:
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
Là! Aucune ambiguïté, non? Droite! Malheureusement, tout ce codage ne représente que les quantités numériques 1–4 (ou 0–3) en notation binaire , ce qui laisse intact le problème de donner ces relations quantitatives indésirables aux catégories.
D'où la nécessité d'un autre schéma de codage.
β