Pour qu'un ordinateur détecte et délimite le cadre de délimitation ou le cercle autour d'une zone d'attention visuelle dans une image, la base de l'attention doit être déterminée. Ensuite, la méthode permettant au système informatique de faire des choix sur cette base peut être sélectionnée. Tout d'abord.
Est-ce un visage, un corps ou un personnage de jeu qui doit être l'objet d'intérêt? Sera-ce l'objet le plus dynamique du cadre en termes de mouvement? S'il s'agit d'une personne, est-ce toujours la même personne? Dans les deux cas, leur visage sera-t-il exposé à l'angle de la caméra? Y a-t-il seulement des photos fixes, ou les images seront-elles des images dans un film?
Une fois que vous savez comment VOUS distingueriez l'objet nécessitant une attention des autres objets et de l'arrière-plan, vous pouvez commencer à voir comment un ordinateur pourrait simuler cette reconnaissance. Lors de la formation d'un réseau profond qui implique des noyaux de convolution (appelés CNN ou réseau neuronal convolutionnel) et éventuellement des cellules de mémoire à long terme (LSTM), il y a des étapes à la reconnaissance.
Habituellement, les bords des objets sont détectés en premier. Dans les films, le mouvement des bords est suivi comme caractéristique de l'image. Les éléments de l'image qui identifient le type d'objet que sont les objets sont les seconds. Par exemple, un jouet peut être détecté par la façon dont le plastique réfléchit la lumière et les types et formes de couleur communs aux jouets. Un visage peut d'abord être reconnu en identifiant les yeux, le nez, la bouche, le menton et les oreilles.
Une fois les pièces identifiées, des objets entiers peuvent être identifiés via une autre étape d'extraction des fonctionnalités. Les systèmes de vision suivent les mêmes principes de base de reconnaissance que notre système visuel humain utilise.
Il existe de nombreux cadres et bibliothèques pour aider à ces tâches, mais pour les utiliser, il est important d'avoir une image générale du processus et de clarifier ce qui différenciera les objets d'importance d'autres objets qui peuvent être similaires ou complètement différent afin que l'attention puisse être concentrée comme vous le souhaitez.
Une fois que tu as (hm i n,vm i n) ; (hm a x,vm a x), les coordonnées des deux coins de votre opération de recadrage, ce qui serait l'objectif de votre formation réseau, alors n'importe quelle bibliothèque de manipulation d'image pourrait gérer le recadrage.
C'est l'état de l'art. Il n'y a pas de SDK de haut niveau qui permet de commander à l'ordinateur de trouver l'élément le plus important dans le cadre sans aucune clarification de ce que cela signifie et des opérations de formation pour apprendre au logiciel à trouver ce que vous avez décidé d'être important en fonction de certains critères. Pas encore en tout cas.