centrage et mise à l'échelle de variables fictives

13

J'ai un ensemble de données qui contient à la fois des variables catégorielles et des variables continues. On m'a conseillé de transformer les variables catégorielles en variables binaires pour chaque niveau (c'est-à-dire A_level1: {0,1}, A_level2: {0,1}) - je pense que certains ont appelé cela des "variables factices".

Cela dit, serait-il trompeur de centrer et de mettre à l'échelle l'ensemble des données avec les nouvelles variables? Il semble que je perdrais le sens "on / off" des variables.

S'il est trompeur, cela signifie-t-il que je devrais centrer et mettre à l'échelle les variables continues séparément, puis les ajouter à nouveau à mon ensemble de données?

TIA.

categorical-data data-transformation centering

— user2300643
source

1

Qu'il soit acceptable ou raisonnable de centrer et / ou de mettre à l'échelle des variables factices dépend de l'application, de l'analyse que vous planifiez et des considérations spécifiques à la tâche. Il n'y a donc pas de réponse correcte unique. Dans la formulation la plus générale et approximative, il est souvent correct de le faire avec des variables fictives prédictives; c'est souvent une mauvaise idée de le faire avec des variables fictives de réponse ou dans des méthodes multivariées telles que le clustering ou l'analyse factorielle.

— ttnphns

13

Lors de la construction de variables fictives à utiliser dans les analyses de régression, chaque catégorie d'une variable catégorielle, à l'exception d'une seule, doit obtenir une variable binaire. Vous devriez donc avoir par exemple A_level2, A_level3 etc. Une des catégories ne devrait pas avoir de variable binaire, et cette catégorie servira de catégorie de référence. Si vous n'omettez aucune des catégories, vos analyses de régression ne s'exécuteront pas correctement.

Si vous utilisez SPSS ou R, je ne pense pas que la mise à l'échelle et le centrage de l'ensemble des données seront généralement un problème car ces progiciels interprètent souvent des variables avec seulement deux niveaux comme facteurs, mais cela peut dépendre des méthodes statistiques spécifiques utilisées . Dans tous les cas, cela n'a aucun sens de mettre à l'échelle et de centrer les variables binaires (ou catégorielles), vous ne devez donc centrer et mettre à l'échelle les variables continues que si vous devez le faire.

— JonB
source

2

Mon sentiment fort est que la seule partie de la réponse qui répond vraiment à la question OP est cette dernière phrase - une partie inexpliquée. Vous dites de ne pas les mettre à l'échelle mais n'expliquez pas pourquoi. En attendant, le sujet n'est pas très facile.

— ttnphns du

Ce n'est qu'une façon de coder les variables catégorielles. Je n'ai pas le temps d'écrire une réponse complète, mais la recherche de "contrastes" pourrait aider. Une réponse pertinente est stats.stackexchange.com/questions/60817/…

— user20637

3

Si vous utilisez R et mettez à l'échelle les variables fictives ou les variables ayant 0 ou 1 à une échelle comprise entre 0 et 1 uniquement, il n'y aura aucun changement sur les valeurs de ces variables, le reste des colonnes sera mis à l'échelle.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

— Shekhar Sahu
source

Astuce intéressante. Merci pour le partage. Cela fait longtemps que je n'ai pas demandé, mais bon de voir que je peux encore apprendre de ces anciens messages.

— user2300643

3

Le point de centrage moyen dans la régression est de rendre l'interception plus interprétable. Autrement dit, si vous voulez dire centrer toutes les variables de votre modèle de régression, l'ordonnée à l'origine (appelée Constante dans la sortie SPSS) est égale à la moyenne générale globale de votre variable de résultat. Ce qui peut être pratique lors de l'interprétation du modèle final.

En ce qui concerne les variables fictives de centrage, je viens d'avoir une conversation avec un de mes professeurs sur les variables fictives de centrage moyen dans un modèle de régression (dans mon cas, un modèle multiniveau de conception de blocs randomisés à 3 niveaux) et mon emporter était cette moyenne les variables fictives ne changent pas réellement l'interprétation des coefficients de régression (sauf que la solution est complètement standardisée). Habituellement, il n'est pas nécessaire dans la régression d'interpréter la valeur centrée moyenne du niveau unitaire réel - uniquement les coefficients. Et cela essentiellement ne change pas - pour la plupart. Elle a dit que cela change légèrement parce que c'est standardisé ce qui, pour les nuls, n'est pas aussi intuitif à comprendre.

Avertissement: c'est ce que j'ai compris lorsque j'ai quitté le bureau de mon professeur. J'aurais pu, bien sûr, me tromper.

— Katie
source