J'essaie de faire des prédictions en utilisant un modèle de forêt aléatoire dans R.
Cependant, je reçois des erreurs car certains facteurs ont des valeurs différentes dans l'ensemble de test que dans l'ensemble d'entraînement. Par exemple, un facteur Cat_2
a des valeurs 34, 68, 76
, etc., dans l'ensemble de test qui n'apparaissent pas dans l'ensemble d'apprentissage. Malheureusement, je n'ai aucun contrôle sur l'ensemble de test ... Je dois l'utiliser tel quel.
Ma seule solution de contournement a été de reconvertir les facteurs problématiques en valeurs numériques, en utilisant as.numeric()
. Cela fonctionne mais je ne suis pas très satisfait, car ces valeurs sont des codes qui n'ont aucun sens numérique ...
Pensez-vous qu'il y aurait une autre solution, pour supprimer les nouvelles valeurs de l'ensemble de test? Mais sans supprimer toutes les autres valeurs de facteur (disons les valeurs1, 2, 14, 32
, etc.) qui sont à la fois dans la formation et le test, et contient des informations potentiellement utiles pour les prévisions.