Dernièrement, j'ai vu que scribd rend très difficile pour les utilisateurs (utilisateurs gratuits) de parcourir un document hébergé sur leur site. Il n'est pas possible de rechercher dans un document, et encore moins de pouvoir le télécharger.
En utilisant javascript, ils chargent des pages à la demande dans le navigateur, et donc la fonction "enregistrer sous" du navigateur n'aide pas beaucoup.
À ma grande surprise, j'ai vu que même copier / coller des copies de texte charabia dans le presse-papiers! Pour vérifier ce qui n'allait pas, j'ai désactivé javascript dans le navigateur, puis chargé à nouveau le même document. Voila, j'ai vu le charabia. Et donc, il semble que le javascript de scribd décode en quelque sorte le charabia puis l'affiche dans le navigateur.
Maintenant, ma question est, même après que javascript soit activé, et que le texte soit rendu correctement dans le navigateur, si je regarde les objets DOM correspondant au texte que je sélectionne, je vois toujours le texte charabia.
Donc, maintenant, je suis confus. Le texte est bien affiché pour l'utilisateur, mais les objets DOM contiennent toujours du charabia. La question est donc de savoir quel type de code / crochet javascript le site utilise-t-il, afin de pouvoir conserver le charabia dans les objets DOM et toujours rendre le texte décodé?
Existe-t-il un moyen d'accéder au texte décodé? Mon intention n'est pas de désosser l'algorithme à décoder, mais de localiser où le texte décodé est stocké?
Exemple de document:
Voyez ce qui se passe lorsque vous activez / désactivez Javascript!