J'utilise Python pour exécuter un modèle de forêt aléatoire sur mon jeu de données déséquilibré (la variable cible était une classe binaire). Lors du fractionnement de l'ensemble de données de formation et de test, j'ai eu du mal à utiliser un échantillonnage stratifié (comme le code illustré) ou non. Jusqu'à présent, j'ai observé dans mon projet que le cas stratifié conduirait à une performance de modèle plus élevée. Mais je pense que si j'utilise mon modèle pour prédire les nouveaux cas qui différeraient très probablement dans la distribution de la classe cible avec mon ensemble de données actuel. J'ai donc eu tendance à assouplir cette contrainte et à utiliser la division non stratifiée. Quelqu'un pourrait-il conseiller pour clarifier ce point?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)