问题描述
我在用socket下载页面(http://www.amazon.cn/mn/detailApp?ref=RK&uid=478-9408365-8400056&asin=B0036DD2ZS )时,在解压gzip时出现这个问题:Exception in thread "main" java.io.IOException: Not in GZIP formatat java.util.zip.GZIPInputStream.readHeader(GZIPInputStream.java:137)at java.util.zip.GZIPInputStream.<init>(GZIPInputStream.java:58)at java.util.zip.GZIPInputStream.<init>(GZIPInputStream.java:68)我想可能是http header部分和html部分切分的不够好,但是我试了很多切分, 都是这个问题, 现在不知道是什么原因导致这个异常,还有就是 , 我在读socket输入流时 ,总是在一个地方停下来,过来很长(好几分钟)时间才会读完,每次出现这个现象, 那么这个gzip的解压就一定出问题,如果很快的读完socket输入流,那就解压正常,我想求教各位这是为什么??谢谢 了!!! 问题补充:pxb1988 写道
解决方案
这个问题我也刚解决,我估计你是没有注意其中的http响应中会有一个transfer-encoding:chunked。 这个是一个分段传输的标志,所以你在解析数据时需要按照chunked的规范提取对应的数据,过滤掉如数据长度之类的信息,然后再对数据进行gzip解压,这样就可以了。 不一定是你说的切分的问题。
解决方案二:
为什么不直接用java.net.URL或者Http client之类现成组件的下载?在读Socket的时候要包装一个BufferInputStream,读BuffIS 比直接读SocketInputStream快,可以解决长时间读取的问题.要想amazon启用GZIP压缩你发过去的http请求头中accept-encoding字段要包含gzip,但是amazon未必会启用GZIP压缩传输,在读收到的http请求头中看Content-Encoding字段是否为gzip,如果是那就是gzip流,否则就是普通的流.
解决方案三:
检查一下配置文件