[NB: Voir la mise à jour 1 ci-dessous.] Je trouve que la méthodologie de rpart
est beaucoup plus facile à expliquer qu'à party
. Ce dernier est cependant beaucoup plus sophistiqué et susceptible de donner de meilleurs modèles. La façon dont j'explique parfois party
est d'en parler comme base pour produire des modèles linéaires locaux (ou GLM). Je construis pour cela en soulignant que les résultats pour rpart
sont constants à travers tous les éléments qui tombent dans le nœud feuille, c'est-à-dire la boîte / région délimitée par les divisions. Même s'il pourrait y avoir des améliorations via des modèles locaux, vous n'obtenez rien d'autre qu'une prédiction constante.
En revanche, party
développe les scissions pour potentiellement optimiser les modèles pour les régions. Il utilise en fait un critère différent de l'optimalité du modèle, mais vous devez évaluer votre propre capacité à expliquer la différence pour déterminer si vous pouvez bien l'expliquer. Les articles sont assez accessibles pour un chercheur, mais peuvent être assez difficiles pour quelqu'un qui ne veut pas envisager des méthodes plus simples comme les forêts aléatoires, le boost, etc. Mathématiquement, je pense que party
c'est plus sophistiqué ... Néanmoins, les modèles CART sont plus faciles à expliquer, à la fois en termes de méthodologie et de résultats, et ceux-ci fournissent un tremplin décent pour l'introduction de modèles d'arbres plus sophistiqués.
En bref, je dirais que vous devez faire rpart
pour la clarté, et vous pouvez utiliser party
pour la précision / performance, mais je ne présenterais pas party
sans introduire rpart
.
Mise à jour 1. J'ai basé ma réponse sur ma compréhension de party
ce qu'il était il y a un an ou deux. Il a grandi un peu, mais je modifierais ma réponse pour dire que je recommanderais toujours rpart
pour sa brièveté et son héritage, si "non fantaisie" devait être un critère important pour votre client / collaborateur. Pourtant, j'essaierais de migrer vers plus de fonctionnalités party
après avoir présenté quelqu'un à rpart
. Il vaut mieux commencer petit, avec des fonctions de perte, des critères de fractionnement, etc., dans un contexte simple, avant d'introduire un package et une méthodologie qui impliquent des concepts beaucoup plus impliqués.