J'exécute un réseau neuronal d'apprentissage en profondeur qui a été formé par un GPU. Je veux maintenant déployer cela sur plusieurs hôtes pour l'inférence. La question est de savoir quelles sont les conditions pour décider si je dois utiliser des GPU ou des CPU pour l'inférence?
Ajout de plus de détails à partir des commentaires ci-dessous.
Je suis nouveau dans ce domaine, donc les conseils sont appréciés.
Mémoire : le GPU est K80
Cadre : Cuda et cuDNN
Taille des données par charge de travail : 20G
Nœuds de calcul à consommer : un par tâche, mais souhaiterait envisager une option d'échelle
Coût : je peux me permettre une option GPU si les raisons ont du sens
Déploiement : exécuté sur ses propres serveurs bare metal hébergés, pas dans le cloud.
En ce moment, je fonctionne sur CPU simplement parce que l'application fonctionne correctement. Mais en dehors de cette raison, je ne sais pas pourquoi on envisagerait même le GPU.