Si vous demandez du contenu gzip (en utilisant l'en-tête accept-encoding: gzip, ce qui est correct), alors je comprends que wget ne peut pas lire le contenu. Vous vous retrouverez donc avec un seul fichier compressé sur le disque, pour la première page que vous atteignez, mais pas d'autre contenu.
c'est-à-dire que vous ne pouvez pas utiliser wget pour demander du contenu gzippé et récurrer tout le site en même temps.
Je pense qu'il y a un patch qui permet à wget de supporter cette fonction mais ce n'est pas dans la version de distribution par défaut.
Si vous incluez l'indicateur -S, vous pouvez savoir si le serveur Web répond avec le type de contenu correct. Par exemple,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
Le codage du contenu indique clairement gzip, cependant pour linux.about.com (actuellement),
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
Il renvoie du texte / html.
Étant donné que certains navigateurs plus anciens ont toujours des problèmes avec le contenu encodé gzip, de nombreux sites ne l'activent que sur la base de l'identification du navigateur. Ils le désactivent souvent par défaut et ne le désactivent que lorsqu'ils savent que le navigateur peut le prendre en charge - et ils n'incluent généralement pas wget dans cette liste. Cela signifie que vous pouvez trouver que wget ne retourne jamais de contenu gzip même si le site semble le faire pour votre navigateur.