字符集问题的初步探讨(一)

问题

 
 原文发表于itpub技术丛书《Oracle数据库DBA专题技术精粹》,未经许可,严禁转载本文.
原文链接:

http://www.eygle.com/special/NLS_CHARACTER_SET_01.htm

Oracle全球支持(即Globalization Support)允许我们使用本地语言和格式来存储和检索数据。通过全球支持,Oracle可以支持多种语言及字符集,得以展示数据库的强大魅力。
由于不同语言及字符集的共同存储存在设置上具有一定的复杂性,字符集一度成为普遍困扰大家的一个主要问题。
本文试图就一些常见问题进行探讨,希望可以把一些实际经验共享给大家!

1. 字符集的基本知识
如果从头说起,字符集最早的编码方案来自于与ASCII.
这也是我们最常见的编码方式。该方案起源于1960年代初期,最初是美国国会图书馆制定用来作为美国图书馆界书目交换的共同标准,最后完善成为美国的国家标准ASCII(American Standard Codefor Information Interchange),之后进一步演变成世界性的计算机字符编码标准ISO646(其全名为7-bit coded character set for information interchange)。成为计算机编码方案的基础。
Oracle数据库最早支持的编码方案也就是US7ASCII.
但是我们知道,英文字符一般是以一个字节来存储的,7位的编码方案最多只能代表128个字符;经过扩展的8位的编码方案也只能代表256个字符,这远远不能满足计算机发展的需要,对于亚洲国家复杂的字符存储需要更多的码位,于是各种编码方案随之而生。

为了容纳全世界各种语言的所有字符和符号,解决不同编码之间的兼容和转换问题,1991年元月,10多家公司共同出资,组建Unicode协会,随后Unicode编码产生了。
Unicode协会的口号是: 给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论什么语言。
最初Unicode编码使用2-Byte(16bit)来进行编码,但是最多只能容纳65536个字符,仍然不够使用,后来进行了扩充,也就是Unicode3.1标准,增加了额外的补充字符定义,现在Unicode4.0标准已经发布,具体可以参考Unicode官方站点:

www.unicode.org

Unicode编码方案主要有三个实施标准:
UTF-8
USC-2
UTF-16
Oracle从7.2开始支持UTF-8编码,提供Unicode编码支持。

按照各种标准的含义,Oracle推荐,如果你的数据库需要存放不同语言的不同符号和字符,建议使用Unicode编码方案。诚然,Unicode方案可以表示更多的字符,但是由于多位的存储,需要额外的存储空间和网络传输,所以选择最适合的数据库字符集仍然需要慎重考虑。

 

时间: 2024-09-24 05:05:17

字符集问题的初步探讨(一)的相关文章

字符集问题的初步探讨(二)

问题 字符集问题的初步探讨(二) --数据库的字符集 Saturday, 2004-09-11 11:38 Eygle  原文发表于itpub技术丛书<Oracle数据库DBA专题技术精粹>,未经许可,严禁转载本文. 原文链接: http://www.eygle.com/special/NLS_CHARACTER_SET_02.htm 2. 数据库的字符集  字符集在创建数据库时指定,在创建后通常不能更改,所以在创建数据库时能否选择一个正确的字符集就显得尤为重要. 在创建数据库时,我们可以指定

字符集问题的初步探讨(七)----关于字符集更改的内部操作

问题 原文链接: http://www.eygle.com/special/NLS_CHARACTER_SET_07.htm 前面我们提到,通过修改props$的方式更改字符集在Oracle7之后是一种极其危险的方式,应该尽量避免. 我们又知道,通过ALTER DATABASE CHARACTER SET更改字符集虽然安全可靠,但是有严格的子集和超集的约束,实际上我们很少能够用到这种方法. 实际上Oracle还存在另外一种更改字符集的方式. 如果你注意过的话,在Oracle的alert<sid>

字符集问题的初步探讨

Oracle全球支持(即Globalization&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;Support)允许我们使用本地语言和格式来存储和检索数据.通过全球支持,Oracle可以支持多种语言及字符集,得以展示数据库的强大魅力.  由于不同语言及字符集的共同存储存在设置上具有一定的复杂性,字符集一度成为普遍困扰大家的一个主要问题. 本文试图就一些常见问题进行探讨,希望可以把一些实际经验共享给大家! 1. 字

字符集问题的初步探讨(六)-----乱码的产生

问题 原文链接: http://www.eygle.com/special/NLS_CHARACTER_SET_06.htm   原文发表于itpub技术丛书<Oracle数据库DBA专题技术精粹>,未经许可,严禁转载本文. 最后我们来讨论一下乱码的产生.   通常在我们的现实环境中,存在3个字符集设置. 第一: 客户端应用字符集(Client Application Character Set) 第二: 客户端NLS_LANG参数设置 第三: 服务器端,数据库字符集(Character Se

字符集问题的初步探讨(四)

问题 link: http://www.eygle.com/special/NLS_CHARACTER_SET_04.htm 4. 导入导出及转换   导入导出是我们常用的一个数据迁移及转化工具,因其导出文件具有平台无关性,所以在跨平台迁移中,最为常用.在导出操作时,非常重要的是客户端的字符集设置,也就是客户端的NLS_LANG设置.NLS_LANG参数由以下部分组成: NLS_LANG=<Language>_<Territory>.<Clients Characterset

字符集问题的初步探讨(五)

问题 原文链接: http://www.eygle.com/special/NLS_CHARACTER_SET_05.htm 原文发表于itpub技术丛书<Oracle数据库DBA专题技术精粹>,未经许可,严禁转载本文. 我们知道在导出文件中,记录着导出使用的字符集id,通过查看导出文件头的第2.3个字节,我们可以找到16进制表示的字符集ID,在Windows上,我们可以使用UltraEdit等工具打开dmp文件,查看其导出字符集:: 在Unix上我们可以通过以下命令来查看: cat expd

字符集问题的初步探讨(三)

问题 link: http://www.eygle.com/special/NLS_CHARACTER_SET_03.htm 2. 字符集的更改  数据库创建以后,如果需要修改字符集,通常需要重建数据库,通过导入导出的方式来转换.我们也可以通过以下方式更改 ALTER DATABASE CHARACTER SET 注意:修改数据库字符集时必须谨慎,修改之前一定要为数据库备份.由于不能回退这项操作,因此可能会造成数据丢失或者损坏. 这是最简单的转换字符集的方式,但并不总是有效.这个命令在Oracl

“一卡通”信息系统数据库设计初步探讨

设计|数据|数据库|数据库设计                               "一卡通"信息系统数据库设计初步探讨                                      福建开普教育设备有限公司 陈优章         引言:卡的应用不外乎就是计费与身份识别之用.所谓"一卡通"就是同一张卡片,每一用户只需要一张卡,在多种不同功能管理中使用.这是用户对系统的基本要求,也是"一卡通"最主要的表现.一卡,并不是一种固定

走近VB.Net(三) 源码详解—运用颜色的初步探讨

详解 走近VB.Net(三) 源码详解-运用颜色的初步探讨 新建一个工程,加入以下控件1. label控件:label1,label2,labred ,labblue,labgreen2. picturebox控件:picturebox13. button控件:Button1设置form1的opacity属性为80%,设置透明的窗体在office中抓取一幅取色图片存为bmp格式,并设为picturebox1的backgroundimage,即背景图片Option Strict Off '关闭 s