Je suis en train de lire l'article clé Séquence à séquence d'apprentissage avec les réseaux de neurones par Ilya Sutskever et Quoc Le. Sur la première page, il mentionne brièvement que:
A surprising example of the power of DNNs is their ability to sort
N N-bit numbers using only 2 hidden layers of quadratic size
Quelqu'un peut-il brièvement expliquer comment trier les nombres en utilisant seulement 2 couches cachées?