Enregistrement d'images par segmentation

Les algorithmes d'enregistrement d'images sont généralement basés sur des entités ponctuelles telles que SIFT (Scale-Invariant Feature Transform).

J'ai vu quelques références à des traits linéaires, mais je me demandais s'il serait possible de faire correspondre des segments d'image au lieu de points . Par exemple, source donnée et image transformée:

entrez la description de l'image ici

Je peux faire la détection des bords, le flou et la transformation des bassins versants sur chacun:

entrez la description de l'image ici

Malheureusement, la segmentation s'est avérée trop différente sur chaque image pour correspondre aux segments individuels.

J'ai vu des articles sur la correspondance des formes et des descripteurs de forme qui sont invariants aux transformations affines, donc ce domaine semble prometteur ...

Existe-t-il des méthodes de segmentation plus robustes aux déformations affines (voire projectives) de l'image?

local-features image-segmentation image-registration

— Libor
source

Mon bon sens me dit que les petites régions sont plus résistantes aux transformations mondiales. Ainsi, la segmentation devrait avoir beaucoup de petits segments. De plus, certaines formes particulières sont invariantes à certaines transformations, (comme les cercles aux rotations)

— Andrey Rubshtein

MSER (régions extrêmes maximales stables) sont des régions, pas des points. Et ils sont invariants à la transformation affine. Mais ce n'est pas une méthode de segmentation à proprement parler.

— Niki Estner du

@nikie Si vous mettez votre commentaire comme réponse, je l'accepterais. Je m'intéressais à la segmentation car les caractéristiques de la région contiennent des informations sur la transformation d'image et pourraient être éventuellement utilisées pour deviner la transformation entre les images. Je vais certainement étudier le document sur MSER.

— Libor

Je travaille actuellement sur CBIR en utilisant des arborescences de composants. La représentation de l'arborescence des composants d'une image ne dépendrait pas tellement des déformations (même projectives) de l'image, différents niveaux permettraient des comparaisons et des opérations jusqu'à un niveau de détail différent, et devraient fonctionner mieux que les techniques actuelles sur des images à faible texture . Ce n'est qu'un sujet de recherche pour l'instant, je viens de commencer, mais j'espère qu'il y a quelque chose dans l'approche, sinon je ne recevrais pas de subvention pour le faire. Mais, si quelqu'un d'autre a fait quelque chose dans ce sens, cela pourrait être utile.

— penelope

@penelope Ces travaux sur CBIR peuvent également être utiles pour le mosaïquage d'images (mon intérêt spécifique) où nous avons des images avec des fonctionnalités similaires. L'approche populaire actuelle est la recherche dimensionnelle élevée sur les descripteurs de points (par exemple SIFT), qui peut conduire à de fausses correspondances entre les images tandis que les "régions" ou les "composants" plutôt que les points peuvent être capables de les discriminer. Avez-vous une référence à des articles sur la représentation des images en arborescence des composants? Merci beaucoup.

— Libor

Réponses:

MSER (régions extrêmes maximales stables) sont des régions, pas des points. Et ils sont invariants à la transformation affine. Mais ce n'est pas une méthode de segmentation, à proprement parler

De manière informelle, l'idée est de trouver des blobs à différents seuils, puis de sélectionner les blobs qui ont le moins de changement de forme / surface sur une plage de seuils. Ces régions devraient être stables pour une large gamme de transformations en niveaux de gris et géométriques.

— Niki Estner
source

Je travaille actuellement sur CBIR en utilisant des arborescences de composants , ce qui devrait être une idée relativement nouvelle. Certains avantages attendus de l'utilisation des arborescences de composants pour décrire des images seraient:

La représentation en arborescence des composants d'une image ne dépendrait pas tellement des déformations (même projectives) de l'image
L'examen de différents niveaux de l'arbre permettrait des comparaisons et des opérations jusqu'à un niveau de détail différent
La discrimination et la description devraient fonctionner mieux que les techniques actuelles sur les images à faible texture.

Comme je viens de commencer une recherche liée à ce sujet, je n'ai qu'une vague idée de mes objectifs: représenter l'image avec l'arborescence des composants, puis comparer lesdits arbres de composants, soit directement en trouvant une représentation vectorisée. Je serai probablement en mesure d'en dire beaucoup plus dans quelques semaines (ou mois), mais pour l'instant je ne peux offrir que la liste des articles qui me sont recommandés comme introduction aux Arbres Composants (je ne les ai pas encore lus):

Je peux peut-être mettre à jour la réponse au fur et à mesure que je trouve quelque chose de pertinent.

De plus, si votre objectif est, d'une certaine manière, de faire correspondre plus précisément les régions d' image au lieu de simplement des points , car les régions peuvent être plus discriminantes, il y avait une bonne suggestion dans J. Sivic et A. Zisserman: "Video Google: A Text Retrieval Approche de la correspondance d'objets dans les vidéos " .

Je me réfère à la section traitant de la cohérence spatiale , où un groupe de correspondances entre les points caractéristiques n'est accepté que si les points caractéristiques conservent une configuration spatiale similaire dans les deux images. Ainsi, la correspondance dépend non seulement du type d'entité extraite (DoG, MSER, ...) ou du descripteur (SIFT), mais elle examine également l'environnement plus large d'un point d'entité, ce qui en fait (au moins un peu) dépend de la région.

— Pénélope
source