Régression logistique avec des variables prédictives clairsemées


8

Je modélise actuellement certaines données à l'aide d'une régression logistique binaire. La variable dépendante a un bon nombre de cas positifs et négatifs - elle n'est pas rare. J'ai également un grand ensemble d'entraînement (> 100 000) et le nombre d'effets principaux qui m'intéresse est d'environ 15, donc je ne m'inquiète pas d'un problème p> n.

Ce qui m'inquiète, c'est que bon nombre de mes variables prédictives, si elles sont continues, sont nulles la plupart du temps, et si elles sont nominales, elles sont nulles la plupart du temps. Lorsque ces variables prédictives clairsemées prennent une valeur> 0 (ou non nulle), je sais en raison de la familiarité avec les données qu'elles devraient être importantes pour prédire mes cas positifs. J'ai essayé de rechercher des informations sur la façon dont la rareté de ces prédicteurs pourrait affecter mon modèle.

En particulier, je ne voudrais pas que l'effet d'une variable clairsemée mais importante ne soit pas inclus dans mon modèle s'il existe une autre variable prédictive qui n'est pas clairsemée et est corrélée mais qui ne fait pas aussi bien le travail de prédiction des cas positifs .

Pour illustrer un exemple, si j'essayais de modéliser si oui ou non quelqu'un a fini par être accepté dans une université de ligue de lierre particulière et mes trois prédicteurs étaient le score SAT, le GPA et le "don> 1 million de dollars" en tant que binaire, j'ai une raison croire que «don> 1 million de dollars», quand il est vrai, sera très prédictif de l'acceptation - plus qu'un GPA ou SAT élevé - mais il est également très rare. Comment, le cas échéant, cela va-t-il affecter mon modèle logistique et dois-je faire des ajustements pour cela? De plus, un autre type de modèle (par exemple, arbre de décision, forêt aléatoire, etc.) gérerait-il mieux cela?

Réponses:


2

1) La rareté des données peut être corrigée par la régularisation L1.

2) Vous pouvez également essayer le sous-échantillonnage et le suréchantillonnage des données (n'oubliez pas de calibrer le résultat en fonction de la ration d'échantillonnage utilisée précédemment).

3) Votre modèle prendra également en compte la signification des différentes variables.


0

Si vos données comportent un peu d'incertitude, vous pouvez créer un niveau de confiance autour d'une variable de prédicteur clairsemée. Dans votre exemple, une variable catégorielle où:

0 = certainement pas donné> 1 M $

1 = peut-être donné> 1 M $

2 = certainement donné> 1 M $

Cela a bien fonctionné pour moi dans le passé

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.