Le terme «invariant d'échelle» signifie ce qui suit ici. Disons que vous avez l'image I et que vous avez détecté une entité (alias un point d'intérêt) f à un endroit (x, y) et à un niveau d'échelle s . Supposons maintenant que vous ayez une image I ' , qui est une version réduite de I (sous-échantillonnée, par exemple). Ensuite, si votre détecteur de caractéristiques est invariant à l'échelle, vous devriez être en mesure de détecter la caractéristique correspondante f ' dans I' à l'emplacement correspondant (x ', y') et à l'échelle correspondante s ' , où (x, y, s) et (x ', y', s ') sont liés par la transformation d'échelle appropriée.
En d'autres termes, si votre détecteur invariant d'échelle a détecté un point caractéristique correspondant au visage de quelqu'un, puis que vous effectuez un zoom avant ou arrière avec votre appareil photo sur la même scène, vous devez toujours détecter un point caractéristique sur ce visage.
Bien sûr, vous voudriez également un "descripteur de fonctionnalité" qui vous permettrait de faire correspondre les deux fonctionnalités, ce qui est exactement ce que SIFT vous offre.
Donc, au risque de vous embrouiller davantage, il y a deux choses qui sont invariantes d'échelle ici. L'un est le détecteur de points d'intérêt DoG, qui est invariant à l'échelle, car il détecte un type particulier de caractéristiques d'image (taches), quelle que soit leur échelle. En d'autres termes, le détecteur DoG détecte les gouttes de n'importe quelle taille. L'autre élément invariant à l'échelle est le descripteur d'entité, qui est un histogramme d'orientation du gradient, qui reste plus ou moins similaire pour la même entité d'image malgré un changement d'échelle.
Soit dit en passant, la différence des gaussiens est utilisée ici comme approximation du filtre laplacien-de-gaussiens.