Schémas de compression d'image / vidéo extrêmement gourmands en calculs qui offrent une meilleure compression que le standard JPEG / H.264

J'essaie de rechercher des schémas de compression d'image / vidéo qui offrent des performances de compression supérieures (en maintenant la qualité d'image constante) par rapport aux normes largement adoptées dans l'industrie (c'est-à-dire JPEG / H.264), mais pour des raisons de trop de calcul ou de ressources intensive, leur mise en œuvre sur des postes de travail à processeur est irréalisable et, par conséquent, non adoptée dans les normes communes.

Je ne pouvais penser qu'à la compression fractale comme un bon exemple. La communauté connaît-elle davantage de tels exemples?

— Ang Zhi Ping
source

En ce qui concerne les images, il existe des algorithmes plus sophistiqués que JPEG, tels que JPEG2000. JPEG2000 offre des taux de compression améliorés, mais je ne suis pas sûr que son manque d'adoption soit dû à la complexité de calcul. Plus encore, le JPEG est considéré comme «assez bon» pour la plupart des applications, il n'y a donc aucune réelle motivation à utiliser quoi que ce soit de mieux (d'autant plus que le stockage sur disque est si abondant dans les systèmes modernes). Ceux qui se soucient de la meilleure qualité d'image, comme les photographes professionnels, évitent souvent la compression, en s'appuyant sur des captures brutes des sorties du capteur d'image.

— Jason R

Je pense que la qualité du JPEG dépend davantage de la quantité de données que vous jetez que du temps que vous passez à les calculer.

— endolith

Les transformées Analyse des composants principaux / KLT / Hotelling peuvent faire un bien meilleur travail que le DCT pour représenter un signal avec un petit nombre de fonctions de base, mais sont assez coûteuses en termes de calcul. Je ne sais pas si quelqu'un a réellement fait des schémas de compression complets avec eux.

— eglaser

@eglaser: Voulez-vous élaborer sur PCA / KLT / Hotelling? Ce serait bien si vous pouviez poster votre réponse comme réponse.

— Ang Zhi Ping

@eglaser KLT est meilleur que DCT en termes de compacité énergétique. Cependant, cela ne signifie pas nécessairement qu'il s'agit d'un meilleur codec; cela est dû au fait que KLT pour chaque image / vidéo est unique et donc, non seulement vous devez transmettre les coefficients résultants, mais vous devez également envoyer le noyau.

— Dipan Mehta

Il existe différents aspects de la compression - que vous vous référiez à l'image ou à la vidéo. (Peut-être que l'audio est totalement différent, donc je ne fais pas référence ici).

Si vous regardez vraiment l'histoire de la norme de compression, quand ils ont été créés, les encodeurs MPEG1 en temps réel étaient rares. Le CPU à ce moment-là n'était pas suffisant pour le rendre en temps réel; cependant, ce n'est pas la complexité du traitement (seule) qui a empêché l'utilisation d'algorithmes plus complexes sous les codecs. (Le principal facteur responsable de l'inclusion / exclusion de certains algorithmes était probablement a. Les brevets, b. La faisabilité de la mise en œuvre).

Cependant, je voudrais reformuler la question un peu plus simplement:

Quelles autres recherches en compression sont disponibles qui sont encore à venir sur le marché (ou qui ne sont pas venues du tout mais qui pourraient valoir pour certaines applications)?

Voici quelques points à considérer:

1. Mieux transformer?

Le DCT a été de loin une transformation universelle sur tous les codecs. Cependant, de nombreux articles de recherche suggèrent que les ondelettes pourraient être meilleures. En effet, le seul JPEG2000 comprenait des ondelettes - mais ce standard lui-même n'était pas très populaire. C'était probablement mieux que le DCT d'une manière ou d'une autre; en particulier, il est affirmé que les ondelettes surpassent le DCT [Voir: Réf 1]

Je pense que ondelette est informatiquement cher sur TCD ( en partie parce que 8x8 implémentations sont TCD hautement optimisées). Mais je suppose que je n'ai pas vraiment volé autant parce que du point de vue du marché parce que le DCT était à l'époque beaucoup plus répandu et que la différence d'amélioration n'était pas si importante pour que les gens changent.

2. Compensation de mouvement multi-hypothèses
Alors que MPEG 2 était assez satisfait des images , des recherches approfondies de Bern Girod [Voir Réf 2] ont prouvé que - le concept peut être étendu bien au-delà. En effet, H.264 a en fait fait une grande généralisation sur la compensation de mouvement basée sur plusieurs cibles - fondamentalement, on peut stocker les 16 dernières images (par rapport à 2 en MPEG2) et en effet la prédiction peut être extrêmement élevée. $B$

Bien que cela fasse déjà partie de la norme H.264 - ce n'est toujours pas pleinement exploité. Il est nécessaire de rendre pratiquement aussi importante une recherche aussi vaste d'estimation de mouvement. La plupart des encodeurs H.264 en sont encore à exploiter pleinement leur potentiel.

3. Compression d'image / vidéo
évolutive La compression d' image et vidéo évolutive est à nouveau un saint graal de la façon dont l'encodage de descriptions multiples peut être effectué pour l'image et la vidéo. Fondamentalement, la même image ou vidéo peut être codée à plusieurs résolutions, quantifications (qualité) ou fréquences d'images. Cela produit différentes couches de qualité par rapport au débit binaire directement dans le même flux - et le serveur de streaming peut en fait adapter le débit binaire et la qualité de manière dynamique pour mieux adapter la vidéo à la qualité. Voir [Réf 3], [Réf 4], [Réf 5]

De cela, seul le vrai succès est le JPEG progressif qui est pratiquement utile pour les sites Web et en fait utile. Encore une fois, alors que la promesse d'adapter dynamiquement le flux binaire est grande, mais cela ne fonctionne que s'il existe des systèmes pratiques où l'estimation d'un tel débit binaire est possible et le type d'adaptation peut servir un objectif réel. Cependant, dans le domaine vidéo, malgré le support de cela dans les normes (MPEG2, MPEG4 et H.264) - il n'y a pratiquement aucune utilisation de cela.

4. Vidéo objet
C'est peut-être le Saint Graal ultime de la compression. La vidéo d'objet [Réf 6] telle qu'initiée par l'organisme de normalisation MPEG lui-même, cependant, cela a également été soutenu par des recherches approfondies.

L'idée de base est de segmenter la vidéo en termes d'objets distincts et plus tard chacun de ces objets peut être traité comme un plan séparé. chaque objet et être appliqué avec un débit binaire différent, une quantification, une fréquence d'images et une prédiction très efficace peut se produire. De plus, on peut manipuler de tels objets comme la façon dont vous pouvez faire des choses dans photoshop / gimp.

Cependant, il s'avère que la segmentation de l'image et de la vidéo du monde réel avec des objets pertinents de perception - est un problème difficile! Donc, même si j'ai des encodeurs / décodeurs - j'ai besoin de robus et d'un système de segmentation en temps réel pour rendre les choses possibles. C'est de loin un problème vraiment ouvert quant à la façon d'appliquer la vidéo sous la forme d'une telle vidéo en couches pour la faire fonctionner.

5. Plus de dimensions
En dehors de cela - il existe des codecs pour la vidéo stéréo (aka multiview) et la vidéo 3D (concept presque similaire) qui tentent également de réduire la redondance dans la dimension supplémentaire. Bien qu'il s'agisse encore de recherches en cours ici, H.264 a un profil pour cela maintenant. Il en va de même pour l'encodage Cinema.

Il existe de nombreux projets de recherche dans ce domaine - cependant, la compression vidéo est actuellement un marché de produits de base. Et la recherche qui ne génère pas substantiellement de nouvelles applications ou s'il y a des problèmes de faisabilité dans la mise en œuvre ne survivra pratiquement pas malgré son ingéniosité.

J'espère que cela t'aides.

Références:

— Dipan Mehta
source