问题描述
比如我抓取下来的内容应该是<li>唱片公司:环球音乐</li>,结果用httpclient抓下来之后变成<li>唱片公司:环球音乐</li>用URL或者UrlConnection也一样的问题,直接右键查看网页源代码也是这样的问题...求解 问题补充:谢谢maowei009,但是我把环球音乐贴进记事本,然后用ie或者火狐打开,可以正常显示"环球音乐"四个字,求解,这是何种编码格式?在google中贴这些也能正常显示中文....头大啊
解决方案
那应该就是编码问题了!
解决方案二:
你把response的编码设置成'gbk'或者'utf-8'看看,如果这两个都不行,你就看下你IE浏览器到默认编码是什么,你不是说在IE下可以显示么,你先试试啊
解决方案三:
这些文字应该是被设置为关键文字等策略了,他传过来经过自己的加密,然后要通过自己的JS渲染才能正确显示,这也是为了网页数据的安全吧。像有些网页你抓取的内容过大,或者到达一定次数,他就会将你的操作屏蔽,具体的我也没研究过他们怎么实现的,不过应该是根据你的IP来封的!
时间: 2024-10-25 13:32:26