字符集问题的初步探讨(四)

问题

link:

http://www.eygle.com/special/NLS_CHARACTER_SET_04.htm

4. 导入导出及转换

 

导入导出是我们常用的一个数据迁移及转化工具,因其导出文件具有平台无关性,所以在跨平台迁移中,最为常用。
在导出操作时,非常重要的是客户端的字符集设置,也就是客户端的NLS_LANG设置。
NLS_LANG参数由以下部分组成:

NLS_LANG=<Language>_<Territory>.<Clients Characterset>

NLS_LANG各部分含义如下:LANGUAGE指定:-Oracle消息使用的语言-日期中月份和日显示TERRITORY指定-货币和数字格式-地区和计算星期及日期的习惯CHARACTERSET:-控制客户端应用程序使用的字符集通常设置或者等于客户端(如Windows)代码页或者对于unicode应用设置为UTF8在Windows上查看当前系统的代码页可以使用chcp命令:

E:\>chcp
活动的代码页: 936

代码页936也就是中文字符集 GBK,在Microsoft的官方站点上,我们可以遭到关于936代码页的具体编码规则,请参考以下链接:

http://www.microsoft.com/globaldev/reference/dbcs/936.htm

我们看一个简单的测试,来了解一下这几个参数的作用:

 

E:\>set NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBKE:\>sqlplus "/ as sysdba"SQL*Plus: Release 9.2.0.4.0 - Production on 星期六 11月 1 22:51:59 2003Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved.连接到:Oracle9i Enterprise Edition Release 9.2.0.4.0 - ProductionWith the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining optionsJServer Release 9.2.0.4.0 - ProductionSQL> select sysdate from dual;SYSDATE----------01-11月-03已选择 1 行。SQL> exit从Oracle9i Enterprise Edition Release 9.2.0.4.0 - ProductionWith the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining optionsJServer Release 9.2.0.4.0 - Production中断开E:\>set NLS_LANG=AMERICAN_AMERICA.ZHS16GBKE:\>sqlplus "/ as sysdba"SQL*Plus: Release 9.2.0.4.0 - Production on Sat Nov 1 22:52:24 2003Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved.Connected to:Oracle9i Enterprise Edition Release 9.2.0.4.0 - ProductionWith the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining optionsJServer Release 9.2.0.4.0 - ProductionSQL> select sysdate from dual;SYSDATE---------01-NOV-031 row selected.SQL>

查看客户端NLS_LANG设置可以使用以下方法:

Windows使用:echo %NLS_LANG%如:E:\>echo %NLS_LANG%AMERICAN_AMERICA.ZHS16GBKUnix使用:env|grep NLS_LANG如:/opt/oracle>env|grep NLS_LANGNLS_LANG=AMERICAN_CHINA.ZHS16GBKWindows客户端设置,可以在注册表中更改NLS_LANG,具体键值位于:HKEY_LOCAL_MACHINE OFTWARE\ORACLE\HOMExx\xx指存在多个ORACLE_HOME时系统编号。

导入和导出是客户端产品,同SQL*PLUS和Oralce Forms一样,因此,使用EXP/IMP工具将按照NLS_LANG定义的方式转换字符集。

导出使用的字符集将会记录在导出文件中,当文件导入时,将会检查导出时使用的字符集设置,如果这个字符集不同于导入客户端的NLS_LANG
设置,字符集将根据导入客户端NLS_LANG设置进行转换,如果必要,在数据插入数据库之前会进行进一步转换。

通常在导出时最好把客户端字符集设置得和数据库端相同,这样可以避免在导出时发生不必要的数据转换,导出文件将和数据库具有相同的字符集。
即使将来会把导出文件导入到不同字符集的数据库中,这样做也可以把转换延缓至导入时刻。

当进行数据导入时,主要存在以下两种情况:
1.源数据库和目标数据库具有相同字符集设置
这时,只需要设置NLS_LANG等于数据库字符集即可导入(前提是,导出使用的是和源数据库相同字符集,即三者相同)

2.源数据库和目标数据库字符集不同
如果我们导出时候使用的NLS_LANG是和源数据库相同的字符集,那么导入时就可以设置客户端NLS_LANG等于导出时使用的字符集,这
样转换只发生在数据库端,而且只发生一次。

例如:
如果进行从WE8MSWIN1252到UTF8的转换
1)使用NLS_LANG=AMERICAN_AMERICA.WE8MSWIN1252导出数据库。
这时创建的导出文件包含WE8MSWIN1252的数据
2)导入时使用NLS_LANG=AMERICAN_AMERICA.WE8MSWIN1252
这时转换仅发生在insert数据到UTF8的数据库中。

以上假设的转换只在目标数据库字符集是源数据库字符集的超集时才能转换。如果不同,一般就需要进行一些特殊的处理。

我们简单看一下导入的转换过程(以Oracle8i为例):

1.确定导出数据库字符集环境
通过读取导出文件头,可以获得导出文件的字符集设置
2.确定导入session的字符集,即导入Session使用的NLS_LANG环境变量
3.IMP读取导出文件
读取导出文件字符集ID,和导入进程的NLS_LANG进行比较
4.如果导出文件字符集和导入Session字符集相同,那么在这一步骤内就不需要转换
如果不同,就需要把数据转换为导入Session使用的字符集。
然而这种转换只能在单byte字符集之间进行。
我们看一个测试:

 

E:\nls2>set NLS_LANG=AMERICAN_AMERICA.US7ASCII设置导入session NLS_LANG为US7ASCIIE:\nls2>e:\oracle\ora8i\bin\imp eygle/eygle file=Sus7ascii-Cus7ascii-exp817.dmp fromuser=eygle touser=eygle tables=test这个导出文件是从US7ASCII数据库导出,导出客户端NLS_LANG也是US7ASCIIImport: Release 8.1.7.1.1 - Production on Fri Nov 7 00:59:22 2003(c) Copyright 2000 Oracle Corporation. All rights reserved.Connected to: Oracle8i Enterprise Edition Release 8.1.7.1.1 - ProductionWith the Partitioning optionJServer Release 8.1.7.1.1 - Production这时导入,在DMP文件和NLS_LANG之间不需要进行字符集转换。Export file created by EXPORT:V08.01.07 via conventional pathimport done in US7ASCII character set and ZHS16GBK NCHAR character setimport server uses ZHS16GBK character set (possible charset conversion)export server uses UTF8 NCHAR character set (possible ncharset conversion). . importing table "TEST" 2 rows importedImport terminated successfully without warnings.

5.对于多Byte字符集的导入(如:UTF8)
需要设置导入Session字符集和导出字符集相同
否则就会遇到:IMP-16 "Required character set conversion (type %lu to %lu) not supported" 错误。
:

E:\nls2>set NLS_LANG=AMERICAN_AMERICA.ZHS16GBK导入Session字符集设置为ZHS16GBK导入US7ASCII的导出文件E:\nls2>e:\oracle\ora8i\bin\imp eygle/eygle file=Sus7ascii-Cus7ascii-exp817.dmp fromuser=eygle touser=eygleImport: Release 8.1.7.1.1 - Production on Fri Nov 7 00:38:55 2003(c) Copyright 2000 Oracle Corporation. All rights reserved.Connected to: Oracle8i Enterprise Edition Release 8.1.7.1.1 - ProductionWith the Partitioning optionJServer Release 8.1.7.1.1 - ProductionIMP-00016: required character set conversion (type 1 to 852) not supportedIMP-00000: Import terminated unsuccessfully在从导出文件US7ASCII到导入 NLS_LANG设置为ZHS16GBK的过程中,不支持单Byte字符集向多Byte转换,报出以上错误。

6.导入Session字符集应该是导出字符集的超级,否则,专有的字符将难以正确转换。
7.当数据转换为导入Session字符集设置以后,如果导入Session字符集不同于导入数据库字符集,这时还需要最后一步转换,这要求导入数据库字符
集是导入session字符集的超级,否则某些专有字符将不能正常转换。
我们继续看上面的两个过程,这里有这样两个原则:
1.如果NLS_LANG的设置和数据库相同,那么数据(在传输过程中当然是2进制码)不经过转换就直接插入数据库中。
2.如果NLS_LANG的设置和数据库不同,那么数据需要转换后才能插入数据库中。
我们再回头来看上面的第一个例子:
:

Export file created by EXPORT:V08.01.07 via conventional pathimport done in US7ASCII character set and ZHS16GBK NCHAR character setimport server uses ZHS16GBK character set (possible charset conversion)export server uses UTF8 NCHAR character set (possible ncharset conversion). . importing table "TEST" 2 rows importedImport terminated successfully without warnings.这时候经过第一步转换后的数据,US7ASCII到ZHS16GBK丢失首位,原样插入数据库,我们看到这时数据库中存放的就是错误的字符(在后面
部分我们做了详细的转换):E:\nls2>sqlplus eygle/eygleSQL*Plus: Release 9.2.0.4.0 - Production on Fri Nov 7 00:35:39 2003Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved.Connected to:Oracle8i Enterprise Edition Release 8.1.7.1.1 - ProductionWith the Partitioning optionJServer Release 8.1.7.1.1 - ProductionSQL> select * from test;NAME--------------------2bJTtest

在Oracle9i中,以上情况略有不同。

时间: 2024-12-04 22:12:09

字符集问题的初步探讨(四)的相关文章

字符集问题的初步探讨(二)

问题 字符集问题的初步探讨(二) --数据库的字符集 Saturday, 2004-09-11 11:38 Eygle  原文发表于itpub技术丛书<Oracle数据库DBA专题技术精粹>,未经许可,严禁转载本文. 原文链接: http://www.eygle.com/special/NLS_CHARACTER_SET_02.htm 2. 数据库的字符集  字符集在创建数据库时指定,在创建后通常不能更改,所以在创建数据库时能否选择一个正确的字符集就显得尤为重要. 在创建数据库时,我们可以指定

字符集问题的初步探讨(七)----关于字符集更改的内部操作

问题 原文链接: http://www.eygle.com/special/NLS_CHARACTER_SET_07.htm 前面我们提到,通过修改props$的方式更改字符集在Oracle7之后是一种极其危险的方式,应该尽量避免. 我们又知道,通过ALTER DATABASE CHARACTER SET更改字符集虽然安全可靠,但是有严格的子集和超集的约束,实际上我们很少能够用到这种方法. 实际上Oracle还存在另外一种更改字符集的方式. 如果你注意过的话,在Oracle的alert<sid>

字符集问题的初步探讨(一)

问题   原文发表于itpub技术丛书<Oracle数据库DBA专题技术精粹>,未经许可,严禁转载本文. 原文链接: http://www.eygle.com/special/NLS_CHARACTER_SET_01.htm Oracle全球支持(即Globalization Support)允许我们使用本地语言和格式来存储和检索数据.通过全球支持,Oracle可以支持多种语言及字符集,得以展示数据库的强大魅力. 由于不同语言及字符集的共同存储存在设置上具有一定的复杂性,字符集一度成为普遍困扰

字符集问题的初步探讨

Oracle全球支持(即Globalization&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;Support)允许我们使用本地语言和格式来存储和检索数据.通过全球支持,Oracle可以支持多种语言及字符集,得以展示数据库的强大魅力.  由于不同语言及字符集的共同存储存在设置上具有一定的复杂性,字符集一度成为普遍困扰大家的一个主要问题. 本文试图就一些常见问题进行探讨,希望可以把一些实际经验共享给大家! 1. 字

字符集问题的初步探讨(六)-----乱码的产生

问题 原文链接: http://www.eygle.com/special/NLS_CHARACTER_SET_06.htm   原文发表于itpub技术丛书<Oracle数据库DBA专题技术精粹>,未经许可,严禁转载本文. 最后我们来讨论一下乱码的产生.   通常在我们的现实环境中,存在3个字符集设置. 第一: 客户端应用字符集(Client Application Character Set) 第二: 客户端NLS_LANG参数设置 第三: 服务器端,数据库字符集(Character Se

字符集问题的初步探讨(五)

问题 原文链接: http://www.eygle.com/special/NLS_CHARACTER_SET_05.htm 原文发表于itpub技术丛书<Oracle数据库DBA专题技术精粹>,未经许可,严禁转载本文. 我们知道在导出文件中,记录着导出使用的字符集id,通过查看导出文件头的第2.3个字节,我们可以找到16进制表示的字符集ID,在Windows上,我们可以使用UltraEdit等工具打开dmp文件,查看其导出字符集:: 在Unix上我们可以通过以下命令来查看: cat expd

字符集问题的初步探讨(三)

问题 link: http://www.eygle.com/special/NLS_CHARACTER_SET_03.htm 2. 字符集的更改  数据库创建以后,如果需要修改字符集,通常需要重建数据库,通过导入导出的方式来转换.我们也可以通过以下方式更改 ALTER DATABASE CHARACTER SET 注意:修改数据库字符集时必须谨慎,修改之前一定要为数据库备份.由于不能回退这项操作,因此可能会造成数据丢失或者损坏. 这是最简单的转换字符集的方式,但并不总是有效.这个命令在Oracl

“一卡通”信息系统数据库设计初步探讨

设计|数据|数据库|数据库设计                               "一卡通"信息系统数据库设计初步探讨                                      福建开普教育设备有限公司 陈优章         引言:卡的应用不外乎就是计费与身份识别之用.所谓"一卡通"就是同一张卡片,每一用户只需要一张卡,在多种不同功能管理中使用.这是用户对系统的基本要求,也是"一卡通"最主要的表现.一卡,并不是一种固定

关于shared pool的深入探讨(四)

关于shared pool的深入探讨(四) link: http://www.eygle.com/internal/shared_pool-4.htm      我们进一步来讨论一下shared pool的处理: 先进行相应查询,获得测试数据:   [oracle@jumper udump]$ sqlplus "/ as sysdba"SQL*Plus: Release 9.2.0.3.0 - Production on Thu Aug 26 10:21:54 2004Copyrigh