C'est un fait bien connu qu'un réseau à une couche ne peut pas prédire la fonction xor, car elle n'est pas séparable linéairement. J'ai tenté de créer un réseau à 2 couches, en utilisant la fonction sigmoïde logistique et backprop, pour prédire xor. Mon réseau a 2 neurones (et un biais) sur la couche d'entrée, 2 neurones et 1 biais dans la couche cachée et 1 neurone de sortie. À ma grande surprise, cela ne convergera pas. si j'ajoute une nouvelle couche, j'ai donc un réseau à 3 couches avec entrée (2 + 1), caché1 (2 + 1), caché2 (2 + 1) et sortie, cela fonctionne. De plus, si je garde un réseau à 2 couches, mais que j'augmente la taille de la couche cachée à 4 neurones + 1 biais, il converge également. Y a-t-il une raison pour laquelle un réseau à 2 couches avec 3 neurones cachés ou moins ne pourra pas modéliser la fonction xor?