Je modélise actuellement certaines données à l'aide d'une régression logistique binaire. La variable dépendante a un bon nombre de cas positifs et négatifs - elle n'est pas rare. J'ai également un grand ensemble d'entraînement (> 100 000) et le nombre d'effets principaux qui m'intéresse est d'environ 15, donc je ne m'inquiète pas d'un problème p> n.
Ce qui m'inquiète, c'est que bon nombre de mes variables prédictives, si elles sont continues, sont nulles la plupart du temps, et si elles sont nominales, elles sont nulles la plupart du temps. Lorsque ces variables prédictives clairsemées prennent une valeur> 0 (ou non nulle), je sais en raison de la familiarité avec les données qu'elles devraient être importantes pour prédire mes cas positifs. J'ai essayé de rechercher des informations sur la façon dont la rareté de ces prédicteurs pourrait affecter mon modèle.
En particulier, je ne voudrais pas que l'effet d'une variable clairsemée mais importante ne soit pas inclus dans mon modèle s'il existe une autre variable prédictive qui n'est pas clairsemée et est corrélée mais qui ne fait pas aussi bien le travail de prédiction des cas positifs .
Pour illustrer un exemple, si j'essayais de modéliser si oui ou non quelqu'un a fini par être accepté dans une université de ligue de lierre particulière et mes trois prédicteurs étaient le score SAT, le GPA et le "don> 1 million de dollars" en tant que binaire, j'ai une raison croire que «don> 1 million de dollars», quand il est vrai, sera très prédictif de l'acceptation - plus qu'un GPA ou SAT élevé - mais il est également très rare. Comment, le cas échéant, cela va-t-il affecter mon modèle logistique et dois-je faire des ajustements pour cela? De plus, un autre type de modèle (par exemple, arbre de décision, forêt aléatoire, etc.) gérerait-il mieux cela?