问题描述
我用 beautifulsoup抓取一个一些网页的时候出现urllib2.urlopen(URL)不能取到 其代码, 比如 www.163.com/ www.sina.com这些网站 我抓他首页title都不能让我抓, 但是 抓其他网页 像 www.google.com www.baidu.com这些都没问题是不是 www.163.com/ www.sina.com这些网页本身加了什么限制 就不能用urllib2.urlopen 来获取网页了?如果是,怎么冲破他的限制呢 自由抓取呢代码很简单:import urllib2from BeautifulSoup import BeautifulSoup,Tagimport reimport osimport statdef analysis(url_str):page=urllib2.urlopen(url_str)soup = BeautifulSoup(page,fromEncoding="gb2312")#print unicode(soup.findAll("table")[4])kk=soup.html.head.titlereturn kkurl_str="http://www.163.com"str_string=analysis(url_str)print str_string
解决方案
lz你的代码我运行结果是乱码,我把fromEncoding="gb2312"改为"gbk"问题就解决了,网易和新浪网页的字符编码都是gbk,gbk包含的字符要比gb2312多点,所以用gb2312抓取gbk的网页可能会产生乱码
解决方案二:
可能跟http request中的User-Agent有关,有的网站只认定几个特定的user-agent.