Les mots clés ici sont prieurs et échelle . À titre d'exemple simple, imaginez que vous essayez de prédire l'âge d'une personne à partir d'une photographie. Avec un ensemble de données d'images et d'âges, vous pourriez former un modèle d'apprentissage en profondeur pour faire des prédictions. C'est objectivement vraiment inefficace car 90% de l'image est inutile, et seule la région avec la personne est réellement utile. En particulier, le visage de la personne, son corps et peut-être ses vêtements.
D'un autre côté, vous pouvez utiliser à la place un réseau de détection d'objet pré-formé pour extraire d'abord les boîtes englobantes pour la personne, rogner l'image, puis la passer à travers le réseau. Ce processus améliorera considérablement la précision de votre modèle pour plusieurs raisons:
1) Toutes les ressources du réseau (c.-à-d. Les poids) peuvent se concentrer sur la tâche réelle de la prévision de l'âge, au lieu d'avoir à trouver d'abord la personne en premier. Ceci est particulièrement important car le visage de la personne contient des caractéristiques utiles. Sinon, les fonctionnalités les plus fines dont vous avez besoin peuvent se perdre dans les premières couches. En théorie, un réseau suffisamment grand pourrait résoudre ce problème, mais ce serait terriblement inefficace. L'image recadrée est également considérablement plus régulière que l'image originale. Alors que l'image d'origine a une tonne de bruit, il est possible de soutenir que les écarts dans l'image recadrée sont beaucoup plus fortement corrélés avec l'objectif.
2) L'image recadrée peut être normalisée pour avoir la même échelle . Cela aide le deuxième réseau à résoudre les problèmes de mise à l'échelle, car dans l'image d'origine, des personnes peuvent se produire près ou loin. La normalisation de l'échelle au préalable permet de garantir que l'image recadrée contiendra une personne qui remplira l'image recadrée complète (bien qu'elle soit pixellisée si elle était éloignée). Pour voir comment cela peut aider à évoluer, un corps recadré qui est la moitié de la largeur et de la hauteur de l'image d'origine a 4 fois moins de pixels à traiter, et donc le même réseau appliqué à cette image aurait 4x le champ récepteur du réseau d'origine à chaque couche.
Par exemple, dans la compétition pulmonaire kaggle, un thème commun dans les meilleures solutions était une sorte de prétraitement des images pulmonaires qui les recadrait autant que possible et isolait les composants de chaque poumon. Ceci est particulièrement important dans les images 3D car l'effet est cubique: en supprimant 20% de chaque dimension, vous vous débarrassez de près de la moitié des pixels!