4项技巧使你不再为PHP中文编码苦恼

   PHP程序设计中中文编码问题曾经困扰很多人,导致这个问题的原因其实很简单,每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展 ASCII 码,中国的 GB2312-80,日本的 JIS 等。作为该国家/区域内信息处理的基础,字符编码集起着统一编码的重要作用。字符编码集按长度分为 SBCS(单字节字符集),DBCS(双字节字符集)两大类。早期的软件(尤其是操作系统),为了解决本地字符信息的计算机处理,出现了各种本地化版本(L10N),为了区分,引进了 LANG, Codepage 等概念。但是由于各个本地字符集代码范围重叠,相互间信息交换困难; 软件各个本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来,作一致处理,将特别的本地化处理内容降低到最少。这也就是所谓的国际化(118N)。各种语言信息被进一步规范为 Locale 信息。处理的底层字符集变成了几乎包含了所有字形的 Unicode。

  现在大部分具有国际化特征的软件核心字符处理都是以 Unicode 为基础的,在软件运行时根据当时的ocale/Lang/Codepage 设置确定相应的本地字符编码设置,并依此处理本地字符。在处理过程中需要实现 Unicode 和本地字符集的相互转换,甚或以 Unicode 为中间的两个不同本地字符集的相互转换。这种方式在网络环境下被进一步延伸,任何网络两端的字符信息也需要根据字符集的设置转换成可接受的内容。

  数据库中的字符集编码问题

  流行的关系数据库系统都支持数据库字符集编码,也就是说在创建数据库时可以指定它自己的字符集设置,数据库的数据以指定的编码形式存储。当应用程序访问数据时,在入口和出口处都会有字符集编码的转换。对于中文数据,数据库字符编码的设置应当保证数据的完整性。GB2312、GBK、UTF-8 等都是可选的数据库字符集编码; 当然我们也可以选择 ISO8859-1 (8-bit),只是我们得在应用程序写数据之前先将 16Bit 的一个汉字或 Unicode 拆分成两个 8-bit 的字符,读数据之后也需要将两个字节合并起来,同时还要判别其中的 SBCS 字符,因此我们并不推荐采用 ISO8859-1 作为数据库字符集编码。这样不但没有充分利用数据库自身的字符集编码支持,而且同时也增加了编程的复杂度。编程时,可以先用数据库管理系统提供的管理功能检查其中的中文数据是否正确。

  PHP 程序在查询数据库之前,首先执行 mysql_query("SET NAMES xxxx"); 其中 xxxx 是你网页的编码(charset=xxxx),如果网页中 charset=utf8,则 xxxx=utf8,如果网页中 charset=gb2312,则xxxx=gb2312,几乎所有 WEB 程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入 mysql_query("SET NAMES xxxx") 就可以了。

  SET NAMES 显示客户端发送的 SQL 语句中使用什么字符集。因此,SET NAMES 'utf-8' 语句告诉服务器"将来从这个客户端传来的信息采用字符集 utf-8"。它还为服务器发送回客户端的结果指定了字符集(例如,如果你使用一个 SELECT 语句,它表示列值使用了什么字符集)。

  定位问题时常用的技巧

  定位中文编码问题通常采用最笨的也是最有效的办法―在你认为有嫌疑的程序处理后打印字符串的内码。通过打印字符串的内码,你可以发现什么时候中文字符被转换成 Unicode,什么时候Unicode 被转回中文内码,什么时候一个中文字成了两个 Unicode 字符,什么时候中文字符串被转成了一串问号,什么时候中文字符串的高位被截掉了……

  取用合适的样本字符串也有助于区分问题的类型。如:"aa啊 aa?@aa" 等中英相间,GB、GBK特征字符均有的字符串。一般来说,英文字符无论怎么转换或处理,都不会失真(如果遇到了,可以尝试着增加连续的英文字母长度)。

  解决各种应用的乱码问题

  1) 使用标签设置页面编码

  这个标签的作用是声明客户端的浏览器用什么字符集编码显示该页面,xxx 可以为 GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是 UTF8)等等。因此,大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码,这样才不会造成编码错误而产生乱码。但是有的时候我们会发现有了这句还是不行,不管 xxx 是哪一种,浏览器采用的始终都是一种编码,这个情况我后面会谈到。

  请注意, 是属于 HTML 信息的,仅仅是一个声明,仅表明服务器已经把 HTML 信息传到了浏览器。

  2) header("content-type:text/html; charset=xxx");

  这个函数 header() 的作用是把括号里面的信息发到 http 标头。如果括号里面的内容为文中所说那样,那作用和 标签基本相同,大家对照第一个看发现字符都差不多的。但是不同的是如果有这段函数,浏览器就会永远采用你所要求的 xxx 编码,绝对不会不听话,因此这个函数是很有用的。为什么会这样呢?那就得说说 http 标头和 HTML信息的差别了:

  http 标头是服务器以 http 协议传送 HTML 信息到浏览器前所送出的字串。而 标签是属于 HTML 信息的,所以 header() 发送的内容先到达浏览器,通俗点就是 header() 的优先级高于 (不知道可不可以这样讲)。假如一个PHP页面既有header("content-type:text/html; charset=xxx"),又有,浏览器就只认前者 http 标头而不认 meta 了。当然这个函数只能在PHP页面内使用。

  同样也留有一个问题,为什么前者就绝对起作用,而后者有时候就不行呢?这就是接下来要谈的Apache 的原因了。

  3) AddDefaultCharset

  Apache 根目录的 conf 文件夹里,有整个 Apache 的配置文档 httpd.conf。

  用文本编辑器打开 httpd.conf,第 708 行(不同版本可能不同)有 AddDefaultCharset xxx,xxx为编码名称。这行代码的意思:设置整个服务器内的网页文件 http 标头里的字符集为你默认的 xxx字符集。有这行,就相当于给每个文件都加了一行 header("content-type:text/html; charset=xxx")。这下就明白为什么明明 设置了是 utf-8,可浏览器始终采用 gb2312 的原因。

  如果网页里有 header("content-type:text/html; charset=xxx"),就把默认的字符集改为你设置的字符集,所以这个函数永远有用。如果把 AddDefaultCharset xxx 前面加个"#",注释掉这句,而且页面里不含 header("content-type…"),那这个时候就轮到 meta 标签起作用了。

  下面列出以上的优先顺序:

  .. header("content-type:text/html; charset=xxx")

  .. AddDefaultCharset xxx

  ..

  如果你是 web 程序员,建议给你的每个页面都加个header("content-type:text/html; charset=xxx"),这样就可以保证它在任何服务器都能正确显示,可移植性也比较强。

  4)PHP.ini 中的 default_charset 配置:

  php.ini 中的 default_charset = "gb2312" 定义了PHP的默认语言字符集。一般推荐注释掉此行,让浏览器根据网页头中的 charset 来自动选择语言而非做一个强制性的规定,这样就可以在同台服务器上提供多种语言的网页服务。

  结束语

  其实PHP开发中的中文编码并没有想像的那么复杂,虽然定位和解决问题没有定规,各种运行环境也各不尽然,但后面的原理是一样的。了解字符集的知识是解决字符问题的基础。不过,随着中文字符集的变化,不仅仅是PHP编程,中文信息处理中的问题还是会存在一段时间的。

时间: 2024-08-02 22:36:31

4项技巧使你不再为PHP中文编码苦恼的相关文章

学习CSS优化的十八项技巧

css|技巧|优化 一.使用css缩写 使用缩写可以帮助减少你CSS文件的大小,更加容易阅读.css缩写的主要规则请参看<常用css缩写语法总结>,这里就不展开描述. 二.明确定义单位,除非值为0 忘记定义尺寸的单位是CSS新手普遍的错误.在HTML中你可以只写width=100,但是在CSS中,你必须给一个准确的单位,比如:width:100px width:100em.只有两个例外情况可以不定义单位:行高和0值.除此以外,其他值都必须紧跟单位,注意,不要在数值和单位之间加空格. 三.区分大

HTML网页制作时需要注意的十三项技巧

技巧|网页 1.怎样定义网页语言(字符集)?  在制作网页过程中,你首先要定义网页语言,以便访问者浏览器自动设置语言,而我们用所见即所得的HTML工具时,都没有注意到这个问题,因为它是默认设置.要设置的语言可以在HTML代码状态下找到: <meta http-equiv="Content Type" content="text/html; charset=gb2312">  把charset=gb2312改换成其它语言代码即可,比如英文harset=en

Excel2007快速删除单元格中的重复项技巧

  面对大量数据的Excel表格,需要删除里面的重复项,如果你还在手动的一个一个删除,未免太out了吧.今天,来教大家一个很简便的快速删除的方法,希望对大家有用. ①首先启动Excel2007,打开需要进行处理的表格.如下所示. ②选中表格要处理的部分,单击菜单栏--数据--删除重复项. ③弹出删除重复项界面,根据实际情况勾选. ④单击确定按钮之后,就会删除重复项了.

7 种 JavaScript 技巧使你更聪明

1.总是颠倒逻辑 让我们从一个小优化开始,目的是为了使得非常简单的操作看起来复杂些. if (x && y) { - } // bad if (!(!x || !y)) { - } // good 2.在你的变量名字里使用扩展的unicode字符 编译好的软件一旦发布成产品,它必须是一个黑盒.这对JavaScript来说是不可能的.如果有人想彻底搞懂你的JavaScript代码,他们仅仅需要打开浏览器控制台.加一些断点就能看到对象的状态. 对象属性的名称,改用非规则字符串,来阻碍他们的进展

百度公开可穿戴技术:多项专利使智能穿戴更舒适

作为http://www.aliyun.com/zixun/aggregation/9845.html">国内互联网公司中科技基因最强的一家巨头,百度在科技热点--可穿戴设备领域中不断创新.根据近期国家知识产权局公开的一系列专利显示,百度已经在智能眼镜.智能手环.智能手表等多个可穿戴技术领域申请了专利,这些专利未来将使可穿戴设备更能满足用户的个性需求,使穿戴更加舒适. 头戴式设备校准专利:跟踪眼球调整屏幕 以智能眼镜为代表的头戴式设备可以说是目前最常见的可穿戴设备之一,但是现有头戴式设备的

加州大学黑科技:激光使电子设备不再依赖半导体材料

北京时间11月9日消息,据外媒报道,美国加州大学圣地亚哥分校科学家开发了一种新型微电子设备,未来PC中由半导体材料制造的处理器可能被取而代之. 这一新技术还处于早期的开发阶段,但它牵涉一些有趣的研究和颇具科幻色彩的概念.加州大学圣地亚哥分校工程师开发了一种由光控制的微电子设备,其中包含由金纳米管构成的超颖表面.受到激光照射后,超颖表面能产生高强度电场. 这种不采用半导体材料的新型微电子设备,有朝一日将解决现代微处理器所面临的一个难题.处理器依靠电子迁移正常运行,问题是,这些电子会不断与原子碰撞,

硅脂涂抹技巧使CPU的散热效果更好

不少人安装散热器的时候忘记涂抹硅脂或者涂抹不正确,结果造成系统运行不稳定,甚至烧毁处理器的严重后果,因此用好硅脂是非常必要的.在使用硅脂之前需要仔细做好涂抹面的清理工作.我们应该用干净的棉布或者脱脂棉球,仔细擦拭处理器表面.如果污垢比较多,可以使用酒精等一些易挥发.无残留的溶剂,用量不要太大,感觉到棉布潮湿就可以了.碰到较厚的污垢,要避免用过分坚硬的东西去刮,以免影响表面的平整.擦拭干净后,将处理器充分风干,保证表面干燥. 散热器的底面多是铜铝材质,如果没有抛光工艺它们也会生锈.生锈的底面被一层

Windows 7的库功能使文件不再乱

  "库"可以将常用的文件夹置顶,还能把散乱的文件夹有机地组合起来. 把常用的工作文件夹.接收文件夹或者下载文件夹等经常需要修改和读写的文件夹都加入库,比如"工作库"."下载库"等,这样就可以减少文件乱放的习惯.点击任务栏上的"库"图标调出库,点击导航栏上的"新建库",根据库的作用命名建立新库.比如用于存放工作文档的库命名为"工作文档库",并将相应的资源文件夹添加进去.右击鼠标,从快捷菜

网站布局新技巧 权重传递不再是难事

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站权重一直是各大站长关注的东西,权重是一个抽象的东西,虽然网站的权重不是说明一切,但是也是不可忽略的东西,从某种意义上说,权重对一个网站来说非常重要.在晓风软件做优化这么多年,我一直把权重这个抽象的东西具体化,不管是外链还是内链,每条链接都能够传递权重值,只是占据的比例不一样. 外链发布是发首页还是内页,哪个传递权重效果好.我在做不二码垛机