Les réponses précédentes sont vraiment excellentes, je voudrais souligner quelques ajouts supplémentaires:
Segmentation d'objets
l'une des raisons pour lesquelles cela est tombé en disgrâce dans la communauté de la recherche est qu'il est problématiquement vague. La segmentation d'objets signifiait simplement trouver un seul ou petit nombre d'objets dans une image et dessiner une frontière autour d'eux, et pour la plupart des cas, vous pouvez toujours supposer que cela signifie cela. Cependant, il a également commencé à être utilisé pour signifier la segmentation des blobs qui pourraient être des objets, la segmentation des objets de l'arrière-plan (plus communément appelé soustraction d'arrière-plan ou segmentation d'arrière-plan ou détection de premier plan), et même dans certains cas, utilisé de manière interchangeable avec la reconnaissance d'objets à l'aide de boîtes de délimitation (cela s'est rapidement arrêté avec l'avènement des approches de réseaux neuronaux profonds pour la reconnaissance d'objets, mais auparavant la reconnaissance d'objets pourrait également signifie simplement étiqueter une image entière avec l'objet en elle).
Qu'est-ce qui rend la «segmentation» «sémantique»?
Simpy, chaque segment, ou dans le cas des méthodes profondes, chaque pixel reçoit une étiquette de classe basée sur une catégorie. La segmentation en général n'est que la division de l'image par une règle. La segmentation par décalage moyen , par exemple, à partir d'un niveau très élevé divise les données en fonction des changements d'énergie de l'image. Coupe graphiquela segmentation basée n'est pas non plus apprise mais directement dérivée des propriétés de chaque image distincte du reste. Les méthodes plus récentes (basées sur les réseaux neuronaux) utilisent des pixels étiquetés pour apprendre à identifier les caractéristiques locales associées à des classes spécifiques, puis classent chaque pixel en fonction de la classe qui a la plus grande confiance pour ce pixel. De cette manière, "pixel-étiquetage" est en fait un nom plus honnête pour la tâche, et le composant "segmentation" est émergent.
Segmentation d'instance
Sans doute la signification la plus difficile, la plus pertinente et la plus originale de la segmentation d'objets, la "segmentation d'instance" signifie la segmentation des objets individuels dans une scène, qu'ils soient du même type ou non. Cependant, une des raisons pour lesquelles cela est si difficile est que du point de vue de la vision (et à certains égards philosophique), ce qui fait une instance "objet" n'est pas entièrement clair. Les parties du corps sont-elles des objets? De tels "objets partiels" devraient-ils être segmentés par un algorithme de segmentation d'instances? Doivent-ils être segmentés uniquement s'ils sont vus séparément du tout? Qu'en est-il des objets composés si deux choses clairement jointes mais séparables doivent être un ou deux objets (une pierre collée au sommet d'un bâton est-elle une hache, un marteau ou simplement un bâton et une pierre à moins qu'elle ne soit correctement faite?). Aussi, ce n'est pas t clair comment distinguer les instances. Un testament est-il une instance distincte des autres murs auxquels il est attaché? Dans quel ordre les instances doivent-elles être comptées? Comme ils apparaissent? Proximité du point de vue? Malgré ces difficultés, la segmentation des objets est toujours un gros problème car en tant qu'humains, nous interagissons tout le temps avec les objets indépendamment de leur «étiquette de classe» (en utilisant des objets aléatoires autour de vous comme poids de papier, assis sur des choses qui ne sont pas des chaises), et donc certains ensembles de données tentent de résoudre ce problème, mais la principale raison pour laquelle il n'y a pas encore beaucoup d'attention accordée au problème est qu'il n'est pas assez bien défini.
Analyse de scène / étiquetage de scène
L'analyse de scène est l'approche strictement segmentée de l'étiquetage de scène, qui présente également certains problèmes d'imprécision. Historiquement, l'étiquetage des scènes signifiait diviser toute la «scène» (image) en segments et leur donner à tous une étiquette de classe. Cependant, cela signifiait également attribuer des étiquettes de classe aux zones de l'image sans les segmenter explicitement. En ce qui concerne la segmentation, la «segmentation sémantique» n'implique pas de diviser la scène entière. Pour la segmentation sémantique, l'algorithme est destiné à segmenter uniquement les objets qu'il connaît, et sera pénalisé par sa fonction de perte pour étiqueter les pixels qui n'ont pas d'étiquette. Par exemple, l'ensemble de données MS-COCO est un ensemble de données pour la segmentation sémantique où seuls certains objets sont segmentés.