Raison des images carrées dans le deep learning

La plupart des modèles avancés d'apprentissage en profondeur comme VGG, ResNet, etc. nécessitent des images carrées en entrée, généralement avec une taille de pixel de $224x224$ .

Y a-t-il une raison pour laquelle l'entrée doit être de forme égale, ou puis-je également créer un modèle convnet avec disons $100x200$ (si je veux faire la reconnaissance faciale par exemple et que j'ai des images de portrait)?

Y a-t-il un avantage accru avec une taille de pixel plus grande, disons $512x512$ ?

deep-learning image-classification image-recognition

— spore234
source

Il n'y a aucune exigence de dimensions de pixels spécifiques pour que les réseaux de neurones convolutifs fonctionnent normalement. Il est probable que les valeurs ont été choisies pour des raisons pragmatiques - comme un compromis entre l'utilisation des détails de l'image par rapport au nombre de paramètres et la taille de l'ensemble de formation requise.

De plus, si les données source ont une gamme de rapports d'aspect différents, certains portraits, certains paysages, avec l'objet cible généralement au centre, prendre un recadrage carré au milieu pourrait être un compromis raisonnable.

Lorsque vous augmentez la taille de l'image d'entrée, vous augmentez également la quantité de bruit et de variance que le réseau devra traiter afin de traiter cette entrée. Cela pourrait signifier plus de couches - à la fois convolutionnelles et de mise en commun. Cela peut également signifier que vous avez besoin de plus d'exemples de formation, et bien sûr, chaque exemple de formation sera plus grand. Ensemble, ils augmentent les ressources de calcul dont vous avez besoin pour terminer la formation. Cependant, si vous pouvez surmonter cette exigence, il est possible que vous vous retrouviez avec un modèle plus précis, pour toute tâche où les pixels supplémentaires pourraient faire une différence.

Une règle de base possible pour savoir si vous souhaitez une résolution plus élevée est de savoir si, pour l'objectif de votre réseau, un expert humain pourrait utiliser la résolution supplémentaire et mieux effectuer la tâche. Cela pourrait être le cas dans les systèmes de régression, où le réseau dérive certaines quantités numériques de l'image - par exemple pour la reconnaissance faciale extraire des données biométriques telles que la distance entre les traits du visage. Il peut également être souhaitable pour les tâches de traitement d'image telles que le masquage automatisé - les résultats de pointe pour ces tâches peuvent toujours être de résolution inférieure à celle des images commerciales où nous aimerions les appliquer dans la pratique.

— Neil Slater
source