Je modélise la prédiction du diabète à l'aide de la régression logistique. L'ensemble de données utilisé est le système de surveillance des facteurs de risque comportementaux (BRFSS) du Center for Disease Control (CDC). L'une des variables indépendantes est l'hypertension artérielle. Il est catégorique avec les niveaux suivants «Oui», «Non», «Ne sait pas / Refus». Dois-je supprimer ces lignes avec «Ne sait pas / Refusé» lors de la construction du modèle? Quelle différence cela fait-il de conserver ou de supprimer ces lignes du modèle?