Traiter les niveaux de variables catégorielles «Ne sait pas / Refus»

9

Je modélise la prédiction du diabète à l'aide de la régression logistique. L'ensemble de données utilisé est le système de surveillance des facteurs de risque comportementaux (BRFSS) du Center for Disease Control (CDC). L'une des variables indépendantes est l'hypertension artérielle. Il est catégorique avec les niveaux suivants «Oui», «Non», «Ne sait pas / Refus». Dois-je supprimer ces lignes avec «Ne sait pas / Refusé» lors de la construction du modèle? Quelle différence cela fait-il de conserver ou de supprimer ces lignes du modèle?

logistic missing-data

— user3897
source

6

Je me demandais exactement la même question lors de l'analyse des dernières données de la National Hospital Discharge Survey . Plusieurs variables ont des valeurs manquantes importantes, comme l'état matrimonial et le type de procédure. Ce problème est venu à mon attention parce que ces catégories ont montré des effets forts (et significatifs) dans la plupart des analyses de régression logistique que je menais.

On est enclin à se demander pourquoiun code manquant est donné. Dans le cas de l'état matrimonial, par exemple, il est plausible que le fait de ne pas fournir ces informations puisse être lié à des facteurs importants tels que le statut socioéconomique ou le type de maladie. Dans votre cas d'hypertension artérielle, nous devons nous demander pourquoi la valeur ne serait pas connue ou refusée? Cela pourrait être lié aux pratiques de l'établissement (reflétant peut-être des procédures laxistes) ou même aux individus (comme les croyances religieuses). Ces caractéristiques pourraient à leur tour être associées au diabète. Par conséquent, il semble prudent de continuer comme vous l'avez fait, plutôt que de coder ces valeurs comme manquantes (les excluant ainsi complètement de l'analyse) ou de tenter d'imputer les valeurs (ce qui masque efficacement les informations qu'elles fournissent et pourrait biaiser les résultats). Ce n'est vraiment plus difficile à faire: vous devez simplement vous assurer que cette variable est traitée comme catégorique et vous obtiendrez un coefficient de plus dans la sortie de régression. De plus, je soupçonne que les ensembles de données BRFSS sont suffisamment volumineux pour que vous n'ayez pas à vous soucier de l'alimentation.

— whuber
source

2

En outre, DK pourrait avoir un sens réel, c'est-à-dire que ces personnes ne sont pas soucieuses de leur santé et pourraient être à risque.

— Brandon Bertelsen

2

Vous devez d'abord réfléchir si les données manquantes manquent complètement au hasard (MCAR), manquent au hasard (MAR) ou manquent pas au hasard (MNAR) car la suppression (en d'autres termes l'analyse complète du cas) peut conduire à des résultats biaisés. Les alternatives sont la pondération de probabilité inverse, l'imputation multiple, la méthode de la pleine probabilité et les méthodes doublement robustes. L'imputation multiple avec des équations chaînées (MICE) est souvent la façon la plus simple de procéder.

— GaBorgulya
source

Merci. Il s'agit de données d'enquête et je ne sais pas s'il s'agit de MAR ou MNAR. Par exemple, il y a une variable qui dit 1) "si une personne a le diabète ou non?" et une autre variable (2) S'il prend de l'insuline? Je vois que la variable (2) n'a des entrées que lorsque la variable (1) est «Oui» (c'est-à-dire qu'une personne est diabétique). Sinon (2) est vide. De plus (2) a «oui», «non», «ne sait pas / refus» comme réponses pour le cas de diabétique. Alors, comment dois-je traiter les cellules vides et les réponses au sondage «Ne sait pas / Refusé»?

— user3897

Je voudrais en savoir plus sur l'imputation multiple et recherchais un matériel d'apprentissage en ligne. Pourriez-vous suggérer du matériel d'apprentissage pour l'IM?

— user3897

0

Avez-vous des raisons de penser que les sujets diabétiques de l'étude étaient plus susceptibles ou moins susceptibles de se retrouver avec la réponse DK / R? Sinon (et je serais assez surpris de découvrir que vous l'avez fait), l'inclusion de ce prédicteur dans le modèle sans ces cas entraînera du bruit. Autrement dit, vous vous retrouverez avec moins de précision dans votre évaluation de la façon dont le «oui» par rapport au «non» influence la probabilité estimée de diabète (parce que vous essaierez de modéliser l'influence du «oui» ou du «non» vs réponses DK / R aléatoires par opposition à juste "oui" vs "non"). L'option la plus simple consiste à exclure les cas avec des réponses DK / R. En supposant que leurs réponses «oui / non» manquaient effectivement au hasard, les exclure ne faussera pas votre estimation de l'influence du «oui» par rapport à "non." Cette approche, cependant, réduira la taille de votre échantillon et réduira ainsi la puissance statistique en ce qui concerne les prédicteurs restants. Si vous avez beaucoup de DK / R sur cette variable, vous voudrez peut-être imputer des réponses "oui" / "non" par imputation multiple (sans doute la stratégie d'imputation de valeur manquante défendable la plus, peut-être seulement).

— dmk38
source