Détecter la zone d'attention visuelle dans une image


9

J'essaie de détecter la zone d' attention visuelle dans une image donnée et de recadrer l'image dans cette zone. Par exemple, étant donné une image de n'importe quelle taille et un rectangle de dimension LxW en entrée, je voudrais recadrer l'image dans la zone d'attention visuelle la plus importante. Je recherche une approche de pointe pour cela.

Avons-nous des outils ou un SDK pour l'implémenter? Tout morceau de code ou algorithme serait vraiment utile.


BTW, au sein d'un objet "unique", je voudrais attirer l'attention. La détection d'objets n'est donc peut-être pas la meilleure chose.
Tina J

Vous recherchez des approches basées sur le deep learning ou des approches classiques basées sur le traitement d'images?
varsh

N'importe lequel d'entre eux qui fonctionnerait mieux. Le Deep Learning pourrait être un meilleur choix.
Tina J

Réponses:


2

Vous pouvez rechercher les titres papier suivants:

  1. Un réseau profond à plusieurs niveaux pour la prédiction de la saillance.
  2. Au-delà de la saillance universelle: prédiction de saillance personnalisée avec CNN multitâche.

Vous pouvez coder en python en utilisant le framework Pytorch.


0

"L'attention" dans le réseau neuronal (visuel) est la zone de l'image où le réseau peut trouver le plus grand nombre de fonctionnalités pour le classer avec une grande confiance. Sur la base de votre description, vous parlez d '"attention douce".

Avons-nous des outils ou SDK pour implémenter cela? Je ne pense pas qu'il existe des SDK prêts à l'emploi. Il est préférable de former un modèle sur votre jeu de données avec attention. Une fois que votre modèle de base est prêt, il est facile d'y ajouter un mécanisme d'attention.Je vous suggère de vérifier https://arxiv.org/pdf/1502.03044.pdf .


0

Pour qu'un ordinateur détecte et délimite le cadre de délimitation ou le cercle autour d'une zone d'attention visuelle dans une image, la base de l'attention doit être déterminée. Ensuite, la méthode permettant au système informatique de faire des choix sur cette base peut être sélectionnée. Tout d'abord.

Est-ce un visage, un corps ou un personnage de jeu qui doit être l'objet d'intérêt? Sera-ce l'objet le plus dynamique du cadre en termes de mouvement? S'il s'agit d'une personne, est-ce toujours la même personne? Dans les deux cas, leur visage sera-t-il exposé à l'angle de la caméra? Y a-t-il seulement des photos fixes, ou les images seront-elles des images dans un film?

Une fois que vous savez comment VOUS distingueriez l'objet nécessitant une attention des autres objets et de l'arrière-plan, vous pouvez commencer à voir comment un ordinateur pourrait simuler cette reconnaissance. Lors de la formation d'un réseau profond qui implique des noyaux de convolution (appelés CNN ou réseau neuronal convolutionnel) et éventuellement des cellules de mémoire à long terme (LSTM), il y a des étapes à la reconnaissance.

Habituellement, les bords des objets sont détectés en premier. Dans les films, le mouvement des bords est suivi comme caractéristique de l'image. Les éléments de l'image qui identifient le type d'objet que sont les objets sont les seconds. Par exemple, un jouet peut être détecté par la façon dont le plastique réfléchit la lumière et les types et formes de couleur communs aux jouets. Un visage peut d'abord être reconnu en identifiant les yeux, le nez, la bouche, le menton et les oreilles.

Une fois les pièces identifiées, des objets entiers peuvent être identifiés via une autre étape d'extraction des fonctionnalités. Les systèmes de vision suivent les mêmes principes de base de reconnaissance que notre système visuel humain utilise.

Il existe de nombreux cadres et bibliothèques pour aider à ces tâches, mais pour les utiliser, il est important d'avoir une image générale du processus et de clarifier ce qui différenciera les objets d'importance d'autres objets qui peuvent être similaires ou complètement différent afin que l'attention puisse être concentrée comme vous le souhaitez.

Une fois que tu as (hmjen,vmjen);(hmuneX,vmuneX), les coordonnées des deux coins de votre opération de recadrage, ce qui serait l'objectif de votre formation réseau, alors n'importe quelle bibliothèque de manipulation d'image pourrait gérer le recadrage.

C'est l'état de l'art. Il n'y a pas de SDK de haut niveau qui permet de commander à l'ordinateur de trouver l'élément le plus important dans le cadre sans aucune clarification de ce que cela signifie et des opérations de formation pour apprendre au logiciel à trouver ce que vous avez décidé d'être important en fonction de certains critères. Pas encore en tout cas.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.