J'ai plus de 10000 images dont environ 2000 sont des doublons dans d'autres formats (comme en JPEG, PNG, GIF). Ces deux chiffres augmentent chaque jour. J'ai besoin de supprimer ces doublons et pour cela je dois d'abord savoir comment les trouver.
Ma première pensée a été de vérifier les pixels d'une image et de trouver d'autres images qui ont les mêmes pixels colorés dans les mêmes coordonnées. Mais cette option ne fonctionne pas toujours. Disons que je recherche un doublon. Quant à l'objet consultable, je choisis un fichier PNG 8 bits. Il trouvera tous les doublons de cette image, mais seulement le PNG 8 bits, parfois le GIF 8 bits et rarement le JPEG (à cause des images algorithmiques je suppose?).
Ma deuxième pensée a été de dupliquer toutes ces images et de les recolorer dans une palette stricte de deux couleurs (disons noir et blanc) et de faire le même scan comme indiqué ci-dessus. Encore une fois, l'image JPEG n'est pas 100% similaire au format PNG ou GIF (la même raison que ci-dessus?).
La troisième pensée était de diminuer le pourcentage sur la quantité d'image que vous devez connaître et d' augmenter la variation des couleurs, entraînant une suppression d'image indésirable ...
Des pensées?