[NB: Voir la mise à jour 1 ci-dessous.] Je trouve que la méthodologie de rpartest beaucoup plus facile à expliquer qu'à party. Ce dernier est cependant beaucoup plus sophistiqué et susceptible de donner de meilleurs modèles. La façon dont j'explique parfois partyest d'en parler comme base pour produire des modèles linéaires locaux (ou GLM). Je construis pour cela en soulignant que les résultats pour rpartsont constants à travers tous les éléments qui tombent dans le nœud feuille, c'est-à-dire la boîte / région délimitée par les divisions. Même s'il pourrait y avoir des améliorations via des modèles locaux, vous n'obtenez rien d'autre qu'une prédiction constante.
En revanche, partydéveloppe les scissions pour potentiellement optimiser les modèles pour les régions. Il utilise en fait un critère différent de l'optimalité du modèle, mais vous devez évaluer votre propre capacité à expliquer la différence pour déterminer si vous pouvez bien l'expliquer. Les articles sont assez accessibles pour un chercheur, mais peuvent être assez difficiles pour quelqu'un qui ne veut pas envisager des méthodes plus simples comme les forêts aléatoires, le boost, etc. Mathématiquement, je pense que partyc'est plus sophistiqué ... Néanmoins, les modèles CART sont plus faciles à expliquer, à la fois en termes de méthodologie et de résultats, et ceux-ci fournissent un tremplin décent pour l'introduction de modèles d'arbres plus sophistiqués.
En bref, je dirais que vous devez faire rpartpour la clarté, et vous pouvez utiliser partypour la précision / performance, mais je ne présenterais pas partysans introduire rpart.
Mise à jour 1. J'ai basé ma réponse sur ma compréhension de partyce qu'il était il y a un an ou deux. Il a grandi un peu, mais je modifierais ma réponse pour dire que je recommanderais toujours rpartpour sa brièveté et son héritage, si "non fantaisie" devait être un critère important pour votre client / collaborateur. Pourtant, j'essaierais de migrer vers plus de fonctionnalités partyaprès avoir présenté quelqu'un à rpart. Il vaut mieux commencer petit, avec des fonctions de perte, des critères de fractionnement, etc., dans un contexte simple, avant d'introduire un package et une méthodologie qui impliquent des concepts beaucoup plus impliqués.