Le déséquilibre n'est pas nécessairement un problème, mais comment y arriver peut l'être. Il n'est pas judicieux de baser votre stratégie d'échantillonnage sur la variable cible. Étant donné que cette variable incorpore le caractère aléatoire dans votre modèle de régression, si vous effectuez un échantillonnage sur cette base, vous aurez de gros problèmes à faire tout type d'inférence. Je doute qu'il soit possible de "résoudre" ces problèmes.
Vous pouvez légitimement sur- ou sous-échantillonner en fonction des variables prédictives . Dans ce cas, à condition de vérifier soigneusement que les hypothèses du modèle semblent valides (par exemple l'homoscédasticité qui nous vient à l'esprit comme importante dans cette situation, si vous avez une régression "ordinaire" avec les hypothèses habituelles), je ne pense pas que vous ayez besoin de annuler le suréchantillonnage lors de la prévision. Votre cas serait désormais similaire à celui d'un analyste qui a conçu explicitement une expérience pour avoir une plage équilibrée de variables prédictives.
Édition - ajout - expansion sur les raisons pour lesquelles il est mauvais d'échantillonner sur la base de Y
y= Xb + eeeXb) le e n'aura plus de moyenne nulle ni ne sera distribué de façon identique. Par exemple, des valeurs faibles de y qui pourraient inclure des valeurs très faibles de e pourraient être moins susceptibles d'être sélectionnées. Cela ruine toute inférence basée sur les moyens habituels d'ajustement de tels modèles. Des corrections peuvent être faites similaires à celles faites en économétrie pour ajuster des modèles tronqués, mais elles sont pénibles et nécessitent des hypothèses supplémentaires, et ne devraient être utilisées que lorsqu'il n'y a pas d'alternative.
Considérez l'illustration extrême ci-dessous. Si vous tronquez vos données à une valeur arbitraire pour la variable de réponse, vous introduisez des biais très importants. Si vous le tronquez pour une variable explicative, il n'y a pas nécessairement de problème. Vous voyez que la ligne verte, basée sur un sous-ensemble choisi en raison de leurs valeurs de prédicteur, est très proche de la vraie ligne ajustée; cela ne peut pas être dit de la ligne bleue, basée uniquement sur les points bleus.
Cela s'étend au cas moins grave de sous-échantillonnage ou de suréchantillonnage (car la troncature peut être considérée comme un sous-échantillonnage poussé à son extrême logique).
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")