J'exécute un réseau neuronal d'apprentissage en profondeur qui a été formé par un GPU. Je veux maintenant déployer cela sur plusieurs hôtes pour l'inférence. La question est de savoir quelles sont les conditions pour décider si je dois utiliser des GPU ou des CPU pour l'inférence?
Ajout de plus de détails à partir des commentaires ci-dessous.
Je suis nouveau dans ce domaine, donc les conseils sont appréciés.
- Mémoire : le GPU est K80 
- Cadre : Cuda et cuDNN 
- Taille des données par charge de travail : 20G 
- Nœuds de calcul à consommer : un par tâche, mais souhaiterait envisager une option d'échelle 
- Coût : je peux me permettre une option GPU si les raisons ont du sens 
- Déploiement : exécuté sur ses propres serveurs bare metal hébergés, pas dans le cloud. 
En ce moment, je fonctionne sur CPU simplement parce que l'application fonctionne correctement. Mais en dehors de cette raison, je ne sais pas pourquoi on envisagerait même le GPU.