est-il possible de donner une estimation empirique de la taille des réseaux de neurones qui peuvent être entraînés sur des GPU courants de qualité grand public ? Par exemple:
Le papier Emergence of Locomotion (Reinforcement) forme un réseau utilisant l'activation tanh des neurones. Ils ont un NN à 3 couches avec 300 200 100 unités pour le Planar Walker . Mais ils ne signalent pas le matériel et l'heure ...
Mais une règle d'or pourrait-elle être élaborée? Également basé sur les résultats empiriques actuels, par exemple:
Les unités X utilisant l'activation sigmoïde peuvent exécuter Y itérations d'apprentissage par heure sur un 1060.
Ou l'utilisation de la fonction d'activation a au lieu de b entraîne une diminution des performances.
Si un étudiant / chercheur / curieux va acheter un GPU pour jouer avec ces réseaux, comment décidez-vous de ce que vous obtenez? Un 1060 est apparemment l'option de budget d'entrée de gamme, mais comment pouvez-vous évaluer s'il n'est pas plus intelligent d'obtenir simplement un netbook merdique au lieu de construire un bureau haute puissance et de dépenser les dollars économisés sur l'infrastructure cloud à la demande.
Motivation pour la question: je viens d'acheter un 1060 et (intelligent, pour poser la question ensuite hein) je me demande si j'aurais juste dû garder les $ et créé un compte Google Cloud. Et si je peux exécuter ma simulation de mémoire sur le GPU.