Une bonne analyse théorique des schémas avec et sans remplacement dans le contexte d'algorithmes itératifs basés sur des tirages aléatoires (qui sont le nombre de réseaux de neurones profonds discriminants (DNN) formés contre) peut être trouvée ici
Bref, il s'avère que l'échantillonnage sans remplacement conduit à une convergence plus rapide que l'échantillonnage avec remplacement.
Je donnerai ici une brève analyse basée sur l'exemple de jouet qu'ils fournissent: Disons que nous voulons optimiser la fonction objectif suivante:
xopt=argminx12∑i=1N(x−yi)2
où la cible . Dans cet exemple, nous essayons de résoudre pour le optimal , étant donné labels de évidemment.x N y iyje∼ N( μ , σ2)XNyje
Ok, donc si nous devions résoudre le optimal directement ci-dessus, nous prendrions ici la dérivée de la fonction de perte, la définirions à 0 et nous résoudrions pour . Donc, pour notre exemple ci-dessus, la perte estxXX
L = 12∑i = 1N( x - yje)2
et sa première dérivée serait:
δLδX= ∑i = 1N( x - yje)
Mettre à 0 et résoudre pour , donne: xδLδXx
xopt=1N∑i=1Nyi
En d'autres termes, la solution optimale n'est rien d'autre que la moyenne de l'échantillon de tous les échantillons de .yNy
Maintenant, si nous ne pouvions pas effectuer le calcul ci-dessus d'un coup, nous devions le faire de manière récursive, via l'équation de mise à jour de la descente de gradient ci-dessous:
Xje= xi - 1- λje∇ ( f( xi - 1) )
et simplement insérer nos termes ici donne:
Xje= xi - 1- λje( xi - 1- yje)
Si nous exécutons ce qui précède pour tous les , alors nous effectuons effectivement cette mise à jour sans remplacement. La question devient alors: pouvons-nous obtenir également la valeur optimale de de cette façon? (N'oubliez pas que la valeur optimale de n'est rien d'autre que la moyenne de l'échantillon de ). La réponse est oui, si vous laissez . Pour voir, cela nous développons: x x y λ i = 1 / ii ∈ 1 , 2 , . . . NXXyλje= 1 / i
Xje= xi - 1- λje( xi - 1- yje) Xje= xi - 1- 1je( xi - 1- yje) Xje= i xi - 1- ( xi - 1- yje)je Xje= ( i - 1 ) xi - 1+ yjeje je xje= ( i - 1 ) xi - 1+ yje
La dernière équation n'est cependant que la formule de la moyenne mobile! Ainsi, alors que nous parcourons l'ensemble de , , etc. jusqu'à , nous aurions effectué nos mises à jour sans remplacement, et notre formule de mise à jour nous donne la solution optimale de , qui est la échantillon moyen!i = 2 i = N xi = 1i = 2i = NX
NXN= ( N- 1 ) xN- 1+ yN= = > xN= 1N∑i = 1Nyje= μ
En revanche cependant, si nous dessinions avec remplacement, alors que nos tirages seraient alors vraiment indépendants, la valeur optimisée serait différente de la moyenne (optimale) , et l'erreur carrée serait donnée par:XNμ
E{ ( xN- μ )2}
qui va être une valeur positive, et ce simple exemple de jouet peut être étendu à des dimensions plus élevées. Cela a pour conséquence que nous voudrions effectuer l'échantillonnage sans remplacement comme une solution plus optimale.
J'espère que cela clarifie un peu plus!