在处理字符串时,常常会遇到不知道字符串是何种编码,如果不知道字符串的编码就不能将字符串转换成需要的编码。面对多种不同编码的输入方式,是否会有一种有效的编码方式?chardet是一个非常优秀的编码识别模块。
下载地址:http://pypi.python.org/pypi/chardet
使用中,chardet.detect()返回字典,其中confidence是检测精确度,encoding是编码形式
代码如下 | 复制代码 |
import chardet charset = chardet.detect(html) print charset 运行结果 {'confidence': 0.99, 'encoding': 'GB2312'} |
时间: 2024-10-31 14:56:10