Ce qui suit est tiré de l'article de Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).
Une approche évidente serait d'échantillonner les intensités d'image locales autour du point clé à l'échelle appropriée, et de les faire correspondre en utilisant une mesure de corrélation normalisée. Cependant, la simple corrélation des patchs d'image est très sensible aux changements qui provoquent un mauvais repérage des échantillons, tels qu'un changement de point de vue fin ou 3D ou des déformations non rigides. Une meilleure approche a été démontrée par Edelman, Intrator et Poggio (1997). Leur représentation proposée était basée sur un modèle de vision biologique, en particulier de neurones complexes dans le cortex visuel primaire.Ces neurones complexes répondent à un gradient à une orientation et à une fréquence spatiale particulières, mais l'emplacement du gradient sur la rétine peut se déplacer sur un petit champ récepteur plutôt que d'être localisé précisément. Edelman et al. a émis l'hypothèse que la fonction de ces neurones complexes était de permettre la mise en correspondance et la reconnaissance d'objets 3D à partir d'une gamme de points de vue.
J'essaie de comprendre le descripteur SIFT. Je comprends l'étape précédente (détecteur de point-clé).
Je ne sais pas pourquoi il est mis en œuvre de cette façon. Je veux connaître l'histoire derrière l'histoire.