En régression linéaire, vous ajustez:
y=f(β,X)=β0+β1x1+β2x2+…
Vous correspond β données de formation données (X,Y)
Supposons que vous déposez le β0 et adapter le modèle, l'erreur dans l'ajustement:
∑i(yi−f(β,Xi))2
être plus grand que si vous l'incluiez? Dans tous les cas (non dégénérés), vous pouvez prouver que l'erreur sera identique ou inférieure (sur les données d'entraînement) lorsque vous incluezβ0puisque le modèle est libre d'utiliser ce paramètre pour réduire l'erreur s'il est présent et aide, et le mettra à zéro s'il n'aide pas. De plus, supposons que vous ayez ajouté une grande constante à y (supposez que votre sortie devait être+10000 que dans vos données de formation d'origine), et remontez le modèle, puis β0 devient clairement très important.
Vous faites peut-être référence à des modèles régularisés lorsque vous dites "supprimés". Les L1 et L2 régularisés, ces méthodes préfèrent garder des coefficients proches de zéro (et vous devriez déjà avoir la moyenne et la variance normalisées votreXau préalable pour que cette étape soit judicieuse. En régularisation, vous avez alors le choix d'inclure ou non le terme d'interception (si nous préférons aussi avoir un petitβ0?). Encore une fois, dans la plupart des cas (tous les cas?), Il vaut mieux ne pas régulariserβ0, car il est peu probable qu'il réduise le sur-ajustement et rétrécisse l'espace des fonctions représentables (en excluant celles β0) conduisant à une erreur plus élevée.
Remarque: la régression logistique de scikit régularise l'interception par défaut. Quelqu'un sait pourquoi: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ? Je ne pense pas que ce soit une bonne idée .