Vous êtes sur la bonne voie.
L'invariance signifie que vous pouvez reconnaître un objet en tant qu'objet, même lorsque son apparence varie d'une manière ou d'une autre. C'est généralement une bonne chose, car cela préserve l'identité, la catégorie, etc. de l'objet, malgré les modifications apportées aux détails de l'entrée visuelle, comme les positions relatives du spectateur / de la caméra et de l'objet.
L'image ci-dessous contient de nombreuses vues de la même statue. Vous (et les réseaux de neurones bien entraînés) pouvez reconnaître que le même objet apparaît dans chaque image, même si les valeurs de pixels réelles sont très différentes.
Notez que la traduction a ici une signification spécifique dans la vision, empruntée à la géométrie. Il ne fait référence à aucun type de conversion, contrairement à une traduction du français vers l'anglais ou entre formats de fichiers. Cela signifie plutôt que chaque point / pixel de l’image a été déplacé de la même quantité dans la même direction. Alternativement, vous pouvez penser à l'origine comme ayant été décalée d'un montant égal dans la direction opposée. Par exemple, nous pouvons générer les deuxième et troisième images de la première ligne en déplaçant chaque pixel de 50 ou 100 pixels vers la droite.
On peut montrer que l'opérateur de convolution commute en ce qui concerne la traduction. Si vous convolvez
F avec
g, peu importe si vous traduisez la sortie convolution
F* g, ou si vous traduisez
F ou
gd'abord, puis les convoluer. Wikipedia a un
peu plus .
Une approche de la reconnaissance d'objet invariante en traduction consiste à prendre un "modèle" de l'objet et à le convoluer à chaque emplacement possible de l'objet dans l'image. Si vous obtenez une réponse volumineuse à un emplacement, cela suggère qu'un objet ressemblant au modèle se trouve à cet emplacement. Cette approche est souvent appelée correspondance de modèles .
Invariance vs Equivariance
La réponse de Santanu_Pattanayak ( ici ) indique qu'il existe une différence entre l' invariance de traduction et l' équivariance de traduction . L'invariance de traduction signifie que le système produit exactement la même réponse, quelle que soit la manière dont son entrée est décalée. Par exemple, un détecteur de visage peut signaler "FACE FOUND" pour les trois images de la rangée supérieure. L'équivariance signifie que le système fonctionne également bien d'une position à l'autre, mais sa réponse change en fonction de la position de la cible. Par exemple, une carte thermique de "visage-iness" aurait des bosses similaires à gauche, au centre et à droite lorsqu'elle traite la première ligne d'images.
C’est parfois une distinction importante, mais beaucoup de gens appellent les deux phénomènes "invariance", d’autant plus qu’il est généralement trivial de convertir une réponse équivariante en réponse invariante - il suffit de ne pas tenir compte de toutes les informations de position).