Tu demandes:
- Est-ce vraiment réalisable comme le suggèrent les auteurs? Selon l'article, leurs résultats sont très efficaces et compressent toujours les données à une taille plus petite. La taille du dictionnaire ne sera-t-elle pas énorme?
Oui bien sûr. Même pour leur exemple trié sur le volet ("LE RENARD RAPIDE EN ARGENT SAUTE LE CHIEN LAZY"), ils n'atteignent pas la compression, car le dictionnaire contient chaque sous-chaîne de 4 octets du texte (moins 4 octets pour la seule répétition de " LE ") ... et la version" compressée "du texte doit inclure tout le dictionnaire plus toute cette merde de nombre premier.
- Ne pourrait-il pas être utilisé pour recompresser itérativement les données compressées en utilisant le même algorithme? Il est évident, et il a été démontré, que de telles techniques (où les données compressées sont recompressées autant de fois que possible, réduisant considérablement la taille du fichier) sont impossibles; en effet, il n'y aurait pas de bijection entre l'ensemble de toutes les données aléatoires et les données compressées. Alors, pourquoi cela semble-t-il possible?
Encore une fois, vous semblez avoir une bonne compréhension intuitive de la situation. Vous vous êtes intuitivement rendu compte qu'aucun schéma de compression ne peut jamais être efficace sur toutes les entrées, car s'il l'était, nous pourrions simplement l'appliquer encore et encore pour compresser n'importe quelle entrée vers un seul bit - puis vers le néant!
En d'autres termes: une fois que vous avez compressé tous vos fichiers .wav en .mp3, vous n'obtiendrez aucune amélioration de la taille du fichier en les compressant. Si votre compresseur MP3 a fait son travail, il n'y aura plus de modèle à exploiter pour le compresseur ZIP.
(La même chose s'applique au cryptage: si je prends un fichier de zéros et le crypte selon mon algorithme cryptographique de choix, le fichier résultant a intérêt à ne pas être compressible , ou bien mon algorithme de cryptage fuit "pattern" dans sa sortie!)
- Même si la technique n'est pas encore parfaite, elle peut évidemment être optimisée et fortement améliorée. Pourquoi cela n'est-il pas plus largement connu / étudié? Si en effet ces affirmations et résultats expérimentaux sont vrais, cela ne pourrait-il pas révolutionner l'informatique?
Ces affirmations et résultats expérimentaux ne sont pas vrais.
Comme Tom van der Zanden l'a déjà noté, "l'algorithme de compression" de Chakraborty, Kar et Guchait est imparfait en ce que non seulement il n'atteint aucun taux de compression, il est également irréversible (en maths, "non bijectif"): il y a une multitude de textes qui "se compressent" tous dans la même image, car leur algorithme est essentiellement une multiplication et la multiplication est commutative.
Vous devriez vous sentir bien que votre compréhension intuitive de ces concepts vous a conduit à la bonne conclusion instantanément. Et, si vous pouvez gagner du temps, vous devriez avoir pitié des auteurs de l'article qui ont clairement passé beaucoup de temps à réfléchir sur le sujet sans le comprendre du tout.
Le répertoire de fichiers un niveau au-dessus de l'URL que vous avez publié contient 139 «articles» de même qualité, tous apparemment acceptés dans les «Actes de la Conférence internationale sur la recherche émergente en informatique, information, communication et applications». Cela semble être une conférence simulée du type habituel. Le but de ces conférences est de permettre aux universitaires frauduleux de prétendre à une "publication dans une revue", tout en permettant aux organisateurs sans scrupules de gagner une tonne d'argent. (Pour en savoir plus sur les fausses conférences, consultez ce fil reddit ou divers articles StackExchange sur le sujet .) Les conférences factices existent dans tous les domaines. Apprenez simplement à faire confiance à votre instinct et à ne pas croire tout ce que vous lisez dans une "procédure de conférence", et tout ira bien.