J'utilise le package randomForest dans R pour développer un modèle de forêt aléatoire pour essayer d'expliquer un résultat continu dans un ensemble de données "large" avec plus de prédicteurs que d'échantillons.
Plus précisément, j'adapte un modèle RF permettant à la procédure de sélectionner parmi un ensemble de ~ 75 variables prédictives qui, selon moi, sont importantes.
Je teste à quel point ce modèle prédit le résultat réel pour un ensemble de tests réservé, en utilisant l' approche publiée ici précédemment , à savoir,
... ou en R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Mais maintenant, j'ai 25 variables de prédiction supplémentaires que je peux ajouter. Lorsque vous utilisez l'ensemble de ~ 100 prédicteurs, le R² est plus élevé. Je veux tester cela statistiquement, en d'autres termes, lorsque vous utilisez l'ensemble de ~ 100 prédicteurs, le modèle teste-t-il significativement mieux dans les données de test que l'ajustement du modèle en utilisant ~ 75 prédicteurs. C'est-à-dire que le R² du test du modèle RF ajusté sur l'ensemble de données complet est significativement plus élevé que le R² du test du modèle RF sur l'ensemble de données réduit.
C'est important pour moi de tester, car ce sont des données pilotes, et obtenir ces 25 prédicteurs supplémentaires était cher, et je dois savoir si je devrais payer pour mesurer ces prédicteurs dans une étude de suivi plus large.
J'essaie de penser à une sorte d'approche de rééchantillonnage / permutation, mais rien ne me vient à l'esprit.