Python的中文问题解决办法

Python的中文问题解决办法

python 的 eclips教程环境后写了一个测试程序。结果出现这样的错误:

SyntaxError: Non-ASCII character 'xbd' in file E:workspacemakeUpdatafilesIndexsrcmakeIndex.py on line 12, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

原因是它不能识别中文编码。要在第一行加入

# -*- coding: GBK -*-

Python中有两种字符串,分别是一般的字符串(每个字符用8 bits表示)和Unicode字符串(每个字符用一个或者多个字节表示),它们可以相互转换。

,我们先要了解Python中有两种字符串,分别是一般的字符串(每个字符用8 bits表示)和Unicode字符串(每个字符用一个或者多个字节表示),它们可以相互转换。关于Unicode,Joel Spolsky 在 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 中有生动的说明,Jason Orendorff 在 Unicode for programmers 有着更为全面的描述,在此我就不再多说什么了。来看下面的代码:

x = u"中文你好"
print s

    运行上述代码,Python会给出下面的错误提示

SyntaxError: Non-ASCII character 'xd6' in file G:workspacechinese_problemsrctest.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
   说是遇到非ASCII字符了,并让我们参考pep-0263。PEP-0263(Python Enhancement Proposal)上面说得很清楚了,Python也意识到了国际化问题,并提出了解决方案。根据提案上面的要求,我们有如下代码
 # -*- coding:gb2312 -*- #必须在第一行或者第二行
print "-------------code 1----------------"
a = "中文a我爱你"
print a
print a.find("我")
b = a.replace("爱", "喜欢")
print b
print "--------------code 2----------------"
x = "中文a我爱你"
y = unicode(x, "gb2312")
print y.encode("gb2312")
print y.find(u"我")
z = y.replace(u"爱", u"喜欢")
print z.encode("gb2312")
print "---------------code 3----------------"
print y    程序运行的结果如下:
-------------code 1----------------
中文a我爱你
5
中文a我喜欢你
--------------code 2----------------
中文a我爱你
3
中文a我喜欢你
---------------code 3----------------
Traceback (most recent call last):
  File "G:Downloadseclipseworkspacepsrchello.py", line 16, in <module>
    print y
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

     我们可以看到,通过引入编码声明,我们可以正常地在使用中文了,而且在code 1和2中,控制台也能正确的把中文打印出来。但是,很明显,上面的代码也反映出了不少的问题:
    1、code 1 和 2在使用print时采用了不同的方式,1是直接print,而2在print之前先进行编码
    2、code 1 和 2中在同样的字符串查找同一个字符“我”,得出的结果不一样(分别是5和3)
    3、code 3 中直接打印unicode字符串 y时出现错误(这也是为什么code 2中要先进行编码的原因)

    为什么?为什么?我们可以先在脑海中模拟一下我们使用Python的流程:首先,我们先用编辑器编写好源代码,保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法,那么该文件就以相应的编码方式保存在磁盘中。注意:编码声明和源文件的编码不一定是一致的,你完全可以在编码声明中声明编码为UTF-8,但是用GB2312来保存源文件。当然,我们不可能自寻烦恼,故意写错,而且好的IDE也能强制保证两者的一致性,但是,如果我们用记事本或者EditPlus等编辑器来编写代码的话,一不小心就会出现这种问题的。
    得到一个.py文件后,我们就可以运行它了,这是,我们就把代码交给Python解析器来完成解析工作。解析器读入文件时,先解析文件中的编码声明,我们假设文件的编码为gb2312,那么先将文件中的内容由gb2312转换成Unicode,然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后,解析器把这些UTF-8字节串分段,解析。如果遇到使用Unicode字符串,那么就使用相应的UTF-8字节串创建Unicode字符串,如果程序中使用的是一般的字符串,那么解析器先将UTF-8字节串通过Unicode转换成相应编码(这里就是gb2312编码)的字节串,并用其创建一般的字符串对象。也就是说,Unicode字符串跟一般字符串在内存中的存放格式是不一样的,前者使用UTF-8的格式,后者使用GB2312格式。
    好了,内存中的字符串存放格式我们知道了,下面我们要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统,让操作系统相应的程序(譬如cmd窗口)进行显示。这里有两种情况:
   1、若字符串是一般的字符串,那么print只需把内存中相应的字节串推送给操作系统。如例子中的code 1。
    2、如果字符串是Unicode字符串,那么print在推送之前先进行相应的encode:我们可以显示使用Unicode的encode方法使用合适的编码方式来编码(例子中code 2),否则Python使用默认的编码方式进行编码,也就是ASCII(例子中的code 3)。当然ASCII是不可能正确编码中文的,因此Python报错。
    至此,上面的三个问题我们已经可以解析第一和第三个了。至于第二个问题,因为Python中有两种字符串,一般字符串和Unicode字符串,两者都有各自的字符处理方法。对于前者,方法是以字节的方式进行的,而且在GB2312中,每个汉字占用两个字节,因此得到的结果是5;对于后者,也就是Unicode字符串,所有字符都是统一看待的,因此得到3。
     虽然上面只提到了控制台程序的中文问题,但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题,同时Python为Unicode提供了极为良好的支持,因此,我建议大家在编写Python的程序时,都统一使用Unicode方式。保存文件时使用UTF-8的编码方式。How to Use UTF-8 with Python有详细的描述,

时间: 2024-10-10 18:49:31

Python的中文问题解决办法的相关文章

Haroopad中文乱码不支持中文问题解决办法

 安装Haroopad之后发现编辑器中输入的中文字体看不到,而右边的预览框中显示正常,真的是让人头大.最后在网上找到了解决办法:   在"文件"下打开"偏好设置",选择编辑器,找到默认主题,点击编辑,如图:   可以看到default.css文件,修改成如下,字体可以根据自己喜欢修改,重新启动软件即可 /**   You can only use the following style.   - color, font-family, font-style   -

PHP和JAVA的XML-RPC中文问题解决办法

xml|解决|问题|中文       问题描述:      在使用PHP和JAVA操作XML-RPC的时候,如果request中包含中文字符,会被自动编码成如下样式: 欢欢 .       环境:PHP内置XML-RPC的API,Apache的XML-RPC的JAVA API       PHP下的解决方法:      起初以为是中文字符的编码问题,所以我就尝试用各种编码方式来编码中文字符,然后交给string xmlrpc_encode_request ( string method, mix

PHP和JAVA的XML-RPC中文问题解决办法_php基础

      问题描述:      在使用PHP和JAVA操作XML-RPC的时候,如果request中包含中文字符,会被自动编码成如下样式: 欢欢 .       环境:PHP内置XML-RPC的API,Apache的XML-RPC的JAVA API       PHP下的解决方法:      起初以为是中文字符的编码问题,所以我就尝试用各种编码方式来编码中文字符,然后交给string xmlrpc_encode_request ( string method, mixed params)函数来

PHP json_encode()函数json不转义中文问题解决办法

如果你调用 PHP 自带的 json_encode() 函数, 碰到中文时, 中文会被转义掉. 例如: echo json_encode(array('你好')); // 输出: ["\u4f60\u597d"] 这非常恼人, 像是一堆乱码, JSON 标准从来没有说要把非 ASCII 字符转义, 标准说的是"Any UNICODE character". 如何禁用掉这种转义呢? 答案是, PHP 自带的 json_encode() 不能禁用这个特性(在 5.4.0

Gvim里不能输入中文问题解决办法

有一段时间没有用Ubuntu了,今天感觉Windows太卡了,就换到了Ubutn下面,想看看是不是会快点.打开了Gvim,打了几个中文,发现一打第二个字母的时候,输入法就自己退出了-..试了好多次,都没有能成功. Fine-Google it!网上走了一圈,有的讲需要加上本地的中文字符的语言支持,如这样:  代码如下 复制代码 sudo gedit /home/limy/.bashrc 在最后添加:LC_CTYPE="zh_CN.utf8,关闭. sudo gedit /etc/environm

PowerPoint 2007 中无法输入中文问题解决办法

从开始菜单找到"控制面板",双击"区域和语言选项". 收起这个图片展开这个图片     收起这个图片展开这个图片   在弹出的窗口中,切换到"语言"选项卡,单击"详细信息"按钮. 收起这个图片展开这个图片   进入"文字服务和输入语言"设置窗口,单击"高级"选项卡,默认状态下"关闭高级文字服务"复选框前是没有勾选的,如果有,请将其清除.然后退出设置窗口. 收起这个图片

smarty截取中文乱码问题解决办法

smarty截取中文乱码问题解决办法 本文章提供了三款smarty截取中文乱码问题解决办法,关于乱码主要是在中文汉字中的处理了,我们利用了uft-8,gb2312等字符内码机制来截取字符串. */ function smarty_modifier_utruncate($string, $length = 80, $etc = '...',                                     $break_words = false, $middle = false)   { 

Docker容器 日志中文乱码问题解决办法_docker

Docker容器 日志中文乱码问题解决办法 1. 找到dockerfile文件, 如 /use/local/src/Docker/Dockerfile 2. 编辑Dockerfile 添加 ENV LANG en_US.UTF-8 ENV LANGUAGE en_US:en ENV LC_ALL en_US.UTF-8 3. 生成新的镜像文件 docker build -t centos7 . 4. 使用docker images查看新生成的镜像 5. 使用新的镜像启动容器 docker run

Android Studio控制台出现中文乱码(方框)问题解决办法

Android Studio控制台出现中文乱码(方框)问题解决办法 最近遇到个恶心的事儿,就使用死丢丢的时候,发现怎么我的控制台输出中文都显示方框???别人都没事,恶心坏我了.经过各种百度,终于找到解决办法,办法也是够恶心的.我们一起来看看吧. 乱码显示结果如下: 解决办法很简单,设置字体为YaHei即可.(可能之前下载的苹果编程字体不支持吧) 修改后结果可以正常显示了 再次简单做个记录, 感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!