Pour faire court : faites ce que @untitledprogrammer a dit, essayez les deux modèles et effectuez une validation croisée pour en choisir un.
Les arbres de décision (en fonction de l'implémentation, par exemple C4.5) et la régression logistique devraient être capables de gérer très bien les données continues et catégoriques. Pour la régression logistique, vous aurez envie de coder fictivement vos variables catégorielles .
Comme l'a mentionné @untitledprogrammer, il est difficile de savoir a priori quelle technique sera mieux basée simplement sur les types de fonctionnalités que vous avez, en continu ou autrement. Cela dépend vraiment de votre problème spécifique et des données dont vous disposez. (Voir le théorème du déjeuner gratuit )
Cependant, vous devez garder à l'esprit qu'un modèle de régression logistique recherche une seule limite de décision linéaire dans votre espace d'entités, tandis qu'un arbre de décision partitionne essentiellement votre espace d'entités en demi-espaces à l'aide de limites de décision linéaires alignées sur l' axe . L'effet net est que vous avez une frontière de décision non linéaire, éventuellement plus d'une.
C'est bien quand vos points de données ne sont pas facilement séparés par un seul hyperplan, mais d'un autre côté, les arbres de décisions sont si flexibles qu'ils peuvent être sujets à un sur-ajustement. Pour lutter contre cela, vous pouvez essayer l'élagage. La régression logistique a tendance à être moins sensible (mais pas immunisée!) Au sur-ajustement.
X yXy
Vous devez donc vous demander:
- quel type de limite de décision est plus logique dans votre problème particulier?
- comment voulez-vous équilibrer le biais et la variance?
- y a-t-il des interactions entre mes fonctionnalités?
Bien sûr, c'est toujours une bonne idée d'essayer simplement les deux modèles et de faire une validation croisée. Cela vous aidera à déterminer lequel est le plus susceptible d'avoir une meilleure erreur de généralisation.