Comment gérer les variables catégorielles non binaires dans la régression logistique (SPSS)

Je dois faire une régression logistique binaire avec beaucoup de variables indépendantes. La plupart d'entre elles sont binaires, mais quelques-unes des variables catégorielles ont plus de deux niveaux.

Quelle est la meilleure façon de gérer ces variables?

Par exemple, pour une variable avec trois valeurs possibles, je suppose que deux variables fictives doivent être créées. Ensuite, dans une procédure de régression par étapes, il est préférable de tester les deux variables muettes en même temps, ou de les tester séparément?

Je vais utiliser SPSS, mais je ne m'en souviens pas très bien, alors: comment SPSS gère-t-il cette situation?

De plus, pour une variable catégorielle ordinale, est-ce une bonne chose d'utiliser des variables fictives qui recréent l'échelle ordinale? (Par exemple, en utilisant trois variables nominales pour une variable ordinale à 4 états, mis 0-0-0à niveau , de niveau , pour le niveau et de niveau , au lieu de , , et pour les 4 niveaux). $1$ 1-0-0 $2$ 1-1-0 $3$ 1-1-1 $4$ 0-0-01-0-00-1-00-0-1

— vitreux
source

Ceci n'est qu'une réponse partielle: même lorsque vous créez explicitement les variables muettes (plutôt que d'utiliser les capacités implicites du logiciel), conservez-les ensemble dans toutes les analyses. En particulier, ils devraient tous entrer ensemble et tous sortir ensemble dans une régression pas à pas, la valeur de p étant calculée de manière appropriée pour le nombre total de variables impliquées. (C'est la recommandation de Hosmer & Lemeshow, de toute façon, et cela a beaucoup de sens.)

— whuber

J'ai écrit un article il y a quelque temps sur les ressources de régression logistique multinomiale dans SPSS .

— Jeromy Anglim

Vous parlez de vos variables indépendantes. Seules les variables dépendantes doivent être binaires pour la régression logistique.

— John

Une chose à noter ici est que vous ne devez pas utiliser du tout de procédures de sélection pas à pas; ils ne sont pas valables. Si cela n'a pas de sens / vous voulez comprendre pourquoi, cela peut vous aider à lire ma réponse ici: algorithmes de sélection automatique de modèle .

— gung - Rétablir Monica

Réponses:

Le site Web de l'UCLA propose de nombreux didacticiels pour chaque procédure, ventilés par type de logiciel que vous connaissez. Consultez la sortie SPSS annotée: régression logistique - la variable SES qu'ils mentionnent est catégorique (et non binaire). SPSS créera automatiquement les variables d'indicateur pour vous. Il existe également une page dédiée aux prédicteurs catégoriels en régression avec SPSS qui contient des informations spécifiques sur la façon de modifier les codages par défaut et une page spécifique à la régression logistique .

— M. Tibbits
source

La régression logistique est une méthode assez flexible. Il peut facilement utiliser comme variables indépendantes des variables catégorielles. La plupart des logiciels qui utilisent la régression logistique devraient vous permettre d'utiliser des variables catégorielles.

À titre d'exemple, disons qu'une de vos variables catégorielles est la température définie en trois catégories: froid / doux / chaud. Comme vous le suggérez, vous pouvez interpréter cela comme trois variables muettes distinctes, chacune ayant une valeur de 1 ou 0. Mais, le logiciel devrait vous permettre d'utiliser une seule variable catégorielle à la place avec une valeur de texte froid / doux / chaud. Et, la régression logit dériverait un coefficient (ou une constante) pour chacune des trois conditions de température. Si l'un n'est pas significatif, le logiciel ou l'utilisateur pourrait facilement le retirer (après avoir observé t stat et la valeur p).

Le principal avantage du regroupement des catégories de variables catégorielles en une seule variable catégorielle est l'efficacité du modèle. Une seule colonne de votre modèle peut gérer autant de catégories que nécessaire pour une seule variable catégorielle. Si, à la place, vous utilisez une variable fictive pour chaque catégorie d'une variable catégorielle, votre modèle peut rapidement évoluer pour avoir de nombreuses colonnes superflues compte tenu de l'alternative mentionnée.

— Sympa
source

@gaetan Je ne comprends pas la remarque concernant une seule colonne vs plusieurs colonnes. Suggérez-vous que les variables catégorielles devraient être codées comme 1, 2, 3, etc. dans une seule colonne au lieu d'utiliser des variables factices? Je ne suis pas sûr que cela ait du sens pour moi car vous imposez alors une contrainte implicite que la différence d'effet sur dv entre les niveaux 1 et 2 est la même que la différence d'effet sur dv entre les niveaux 2 et 3. Peut-être que je manque quelque chose.

@Gaetan Je ne suis pas sûr de te suivre. Comment XLStat transforme-t-il exactement les valeurs «textuelles» de froid, doux ou chaud en valeurs numériques aux fins d'estimation? S'il existe une méthode qui vous permettra d'estimer les effets des variables catégorielles sans utiliser de variables fictives, celle-ci devrait être indépendante du logiciel que vous utilisez, car il devrait y avoir une logique conceptuelle / basée sur un modèle sous-jacente.

@Gaetan Je ne respecte pas votre point, sauf si vous considérez que votre variable ordinale est traitée comme continue (cela peut parfois avoir du sens, bien que nous supposions clairement que la variable peut hériter de la propriété d'une échelle d'intervalle comme indiqué par @Skrikant) . Habituellement, une variable avec niveaux est représentée dans la matrice de conception sous forme de colonnes , et je pense que cela est assez indépendant du logiciel utilisé (sûrement, XLStat se charge de construire la matrice de conception correcte comme R, SPSS ou Stata) .

k

$k$

k - 1

$k-1$

— chl

@Gatean Ok, dans ce cas, la même chose peut être faite dans SPSS (vous avez le choix entre numérique / ordinal / nominal pour chaque variable) - ensuite, la matrice de conception est construite en conséquence.

— chl

@Gaetan @chl Pour résumer ma compréhension: Les fonctionnalités de SPSS et XLStat vous permettant de spécifier l'échelle de mesure (nominale, ordinale, etc.) diminuent la taille du fichier de données. Cependant, dans les deux cas, le logiciel utilise le schéma de codage correct (par exemple, développer une variable nominale avec J catégories en variables factices J-1) dans le cadre du processus d'estimation en arrière-plan. Serait-ce une évaluation juste de la situation?

Pour autant que je sache, il est bon d'utiliser une variable fictive pour les données catégorielles / nominales tandis que pour les données ordinales, nous pouvons utiliser le codage 1,2,3 pour différents niveaux. Pour la variable fictive, nous coderons 1 s'il est vrai pour une observation particulière et 0 sinon. Les variables fictives seront également 1 de moins que le non. Des niveaux, par exemple en binaire, nous avons 1. Une observation tout '0' dans la variable factice fera automatiquement 1 pour le factice non codé.

— Jayr
source