Est-ce que je transforme toutes mes données ou mes plis (si CV est appliqué) en même temps? par exemple
(allData - mean(allData)) / sd(allData)
Est-ce que je transforme les trains et les tests séparément? par exemple
(trainData - mean(trainData)) / sd(trainData)
(testData - mean(testData)) / sd(testData)
Ou dois-je transformer la rame et utiliser des calculs sur la base de tests? par exemple
(trainData - mean(trainData)) / sd(trainData)
(testData - mean(trainData)) / sd(trainData)
Je crois que 3 est la bonne façon. Si 3 est correct, dois-je m'inquiéter de ce que la moyenne ne soit pas 0 ou que la plage ne soit pas comprise entre [0; 1] ou [-1; 1] (normalisation) du jeu de tests?
R
? Voir cette question: stackoverflow.com/questions/49260862/…