La compréhension de la théorie de l'espace d'échelle

Dans la théorie de l'échelle-espace, la représentation échelle-espace du signal , (dans le cas de l'image ) est donnée par: où est un noyau gaussien avec le paramètre et est une convolution. En modifiant le paramètre , nous recevons une image plus ou moins lissée. Comme résultat, une représentation plus grossière (paramètre ) ne contiendra pas de petits objets ni de bruit. $f(x), x = (x_1, ..., x_d)$ $d = 2$ $L(x, y; t) = g(x, y; t) * f(x, y)$ $g(x, y; t)$ $t$ $*$ $t$ $t$

L'essentiel est de trouver un moyen de détection de caractéristiques invariantes à l'échelle, non? De sorte que pour une image à sa copie de taille réduite, les fonctionnalités telles que les points clés seront détectées correctement, même si la taille est différente, sans trouver d'autres points clés de bruit.

Dans l'article, ils utilisent les dérivés normalisés . . Quelle est la signification de l'utilisation du dérivé normalisé , en quoi cela aide-t-il dans l'invariance d'échelle? $\gamma$ $\delta_{\xi, \gamma-norm} = t^{\gamma / 2} \delta_x$ $\gamma$
Sur cette image, nous pouvons voir qu'à peu près aux mêmes positions, les différents points clés trouvés (de taille différente). Comment est-ce possible?

Fonctionnalités détectées

Si vous pouvez expliquer l'algorithme étape par étape de la détection de caractéristiques invariantes à l'échelle, ce serait formidable. Que fait-on réellement? Les dérivés peuvent être pris par ou . Blob peut être détecté en prenant la dérivée de par les variables . Comment le dérivé de aide- -il ici? $x, y$ $t$ $L$ $(x, y)$ $t$

Le papier que je lisais est: Détection de fonction avec sélection automatique de l'échelle

image-processing computer-vision scale-space

— maximus
source

Cela fait vraiment longtemps que je n'ai pas lu les articles de Lindeberg, donc la notation semble un peu étrange. En conséquence, ma réponse initiale était fausse. n'est pas un niveau d'échelle. Cela semble être un paramètre quelconque qui peut être réglé. Il est vrai que vous devez multiplier la dérivée par la puissance appropriée de . lui-même correspond à un niveau d'échelle, et la puissance dépend de l' ordre de la dérivée. $\gamma$ $t$ $t$
Vous pouvez trouver des points clés à plusieurs échelles au même endroit. C'est parce que vous recherchez les maxima locaux sur des échelles. Voici l'intuition: pensez à l'image d'un visage. À petite échelle, vous obtenez une goutte correspondant au nez. À une échelle de cours, vous obtenez une goutte correspondant à l'ensemble du visage. Les deux taches sont centrées au même point, mais ont des échelles différentes.
Voici tout l'algorithme:
- Décidez quelles caractéristiques de l'image vous intéressent (par exemple, taches, coins, bords)
- Définissez une "fonction de détecteur" correspondante en termes de dérivés, par exemple un laplacien pour les taches.
- Calculez les dérivés dont vous avez besoin pour votre fonction de détecteur à différentes échelles.
- Multipliez les réponses dérivées par , où est l'ordre de la dérivée, pour compenser la diminution de l'amplitude. $t^{m \gamma / 2}$ $m$
- Calculez la fonction du détecteur sur tout l'espace de l'échelle.
- Trouvez les maxima locaux de la fonction du détecteur sur . $x, y, t$
- Ce sont vos points d'intérêt ou points clés.

Éditer:

Lindeberg prouve dans l'article que est le facteur approprié pour la normalisation des dérivés. Je ne pense pas pouvoir reproduire la preuve ici. $t^{\gamma / 2}$
Vous ne prenez pas de dérivés par rapport à . Vous calculez uniquement les dérivées par rapport à et , mais vous les calculez à différentes échelles. Une façon de penser à cela est de générer d'abord un espace à l'échelle gaussienne, en brouillant l'image à plusieurs reprises avec un filtre gaussien d'une certaine variance . Calculez ensuite les dérivées par rapport à et à chaque niveau d'échelle. $t$ $x$ $y$ $t$ $x$ $y$
Vous voulez trouver des maxima locaux sur des échelles car vous pouvez avoir des caractéristiques d'image de taille différente au même endroit. Pensez à une image de cercles concentriques, comme un oeil de boeuf. Il vous donnera des réponses élevées d'un laplacien à plusieurs échelles. Ou pensez à une image d'un véritable œil humain filtré par un laplacien à différentes échelles. Vous obtiendrez une réponse élevée à une échelle fine pour la pupille, une réponse élevée une certaine échelle moyenne pour l'iris et une réponse élevée à une échelle grossière pour l'œil entier.

Le fait est que vous ne savez pas à quelle échelle les caractéristiques d'intérêt pourraient être à l'avance. Vous regardez donc à toutes les échelles.

— Dima
source

1. Comment pouvons-nous garantir que le est un multiplicateur suffisant pour normaliser la réponse dérivée? 2. J'ai pensé que la dérivée de est prise pour trouver le paramètre où le maximum est atteint. Afin de trouver la meilleure échelle. Donc, pendant que vous écrivez, il semble que je doive calculer les dérivées par sur une plage sélectionnée. Et comme résultat, je trouverai (en prenant des dérivées par ) les caractéristiques à différentes échelles. Droite?

t^{γ / 2}

$t^{\gamma / 2}$

t

$t$

t

$t$

t

$t$

x, y

$x,y$

— maximus

Et comme vous l'avez écrit dans 3: Trouver les maxima locaux de la fonction du détecteur sur Pourquoi devons-nous trouver les maxima locaux par t? Pouvez-vous décrire cette étape en détail? En fait, comment la dérivée de est-elle utilisée ici?

x, y, t

$x,y,t$

t

$t$

— maximus

@maximus Veuillez voir la modification de la réponse.

— Dima

@maximus, je me suis trompé avant. gamma n'est pas le niveau d'échelle. J'ai fixé la réponse.

— Dima