问题描述
- 关于数据抓取时网页编码各不相同的问题
-
最近在学习数据抓取的一些技能,抓取指定数据,网页编码都是不一样的,
有没有方法写个公用的类或者对象来处理,求代码
解决方案
python 判断网页编码的方法:
import urllib
f = urllib.urlopen('http://outofmemory.cn/').info()
print f.getparam('charset')
2 import chardet 你需要安装一下chardet第3方模块判断编码
data = urllib.urlopen('http://outofmemory.cn/').read()
print chardet.detect(data)
希望对你有帮助!
解决方案二:
获取网页编码,然后再根据自己需要处理
解决方案三:
一一般规范的页面都会描述自己的编码格式,你要做的就是统一处理解析这些编码格式。
时间: 2024-10-21 13:15:24