Comme vous semblez le réaliser, nous n'avons certainement pas besoin du facteur pour obtenir une régression linéaire. Les minimiseurs seront bien sûr exactement les mêmes, avec ou sans. Une raison typique de normaliser par m est que nous pouvons voir la fonction de coût comme une approximation de "l'erreur de généralisation", qui est la perte carrée attendue sur un nouvel exemple choisi au hasard (pas dans l'ensemble d'apprentissage):1/mm
Supposons que soient échantillonnés iid à partir d'une certaine distribution. Ensuite, pour les grands m, nous prévoyons que
1(X,Y),(X(1),Y(1)),…,(X(m),Y(m))m
1m∑i=1m(hθ(X(i))−Y(i))2≈E(hθ(X)−Y)2.
Plus précisément, par la loi forte des grands nombres, nous avons
avec probabilité 1.
limm→∞1m∑i=1m(hθ(X(i))−Y(i))2=E(hθ(X)−Y)2
Remarque: Chacun des énoncés ci-dessus concerne un particulier , choisi sans regarder l'ensemble d'apprentissage. Pour l' apprentissage de la machine, nous voulons que ces déclarations TIENDRA pour certains θ choisis en fonction de ses bonnes performances sur l'ensemble de la formation. Ces affirmations peuvent toujours être valables dans ce cas, bien que nous devions faire quelques hypothèses sur l'ensemble des fonctions { h θθθ^ , et nous aurons besoin de quelque chose de plus fort que la loi des grands nombres. {hθ|θ∈Θ}