使用COMPOSE和UNISTR 创建沉音字符

创建

很多语言,包括英语在内,都使用沉音字符(accented character)。因为这些字符不属于 ASCII 字符集,所以如果不查看 Unicode 值也不使用 Unicode 编辑器并将其转成一个已知字符集,就很难编写使用这些字符的代码。

Oracle9i 引入了 COMPOSE 函数,该函数接受一串 Unicode 字符并规则化其文本。这就意味着它可以接受一个字母和一个组合标记,比如说‘a'(Unicode 字符0097)和沉音符(Unicode 字符0300),然后创建一个单独的由两个标记组合而成的字符。COMPOSE 使用特殊的组合标记,而没有使用 ASCII 中相应的音节标记,它所使用的特殊的组合标记是 Unicode 标准 的一部分。上面的例子的结果应该是 Unicode 字符00E0(有一个沉音符的小写拉丁字母‘a')。

在 ANSI 中最常见的组合字符有:

· U+0300:沉音符(grave accent)( ` )

· U+0301:重音符(acute accent)( ' )

· U+0302:抑扬音符号(circumflex accent)(^)

· U+0303:颚化符号(tilde)(~)

· U+0308:元音变音

如果没有特殊的软件或者键盘驱动程序的话,很难在键盘上输入 Unicode 字符0097和0300。因此,以纯 ASCII 文本输入 Unicode 序列的一个方法是使用 UNISTR 函数。这个函数接受一个 ASCII 字符串然后以国家字符集(通常作为16位 Unicode 或者 UTF-8 字符集安装)创建一个 Unicode 字符的序列。它使用十六进制占位符序列映射任何非 ASCII 字符,映射方式与 Java 类似。

要输入 a 后接一个沉音符组合字符的序列,可以使用 UNISTR(‘a\0300'),而不要试图直接在代码中输入字符。这个函数在任何字符集以及任何具有基于 Unicode 的国家字符集的数据库下都可以正常运行。可以将多个组合字符放在函数中——可以在 UNISTR 函数中混合使用 ASCII 和 Unicode 占位符。例如,可以像下面这样使用 UNISTR 函数:

select COMPOSE(UNISTR('Unless you are nai\0308ve, meet me at the cafe\0301 with
your re\0301sume\0301.')) from dual;

在将 UNISTR 函数的输出与 COMPOSE 组合时,可以在不查找任何值的情况下生成一个 Unicode 字符。例如:

select 'it is true' if compose(unistr('a\0300')) = unistr('\00e0');

COMPOSE 函数返回一个NVARCHAR2 字符串,返回的NVARCHAR2 字符串通常是基于 Unicode 的。如果是在本地使用这些字符,在结果中具有一个隐式地 TO_CHAR 时,数据库将尝试将 Unicode 字符映射到本地字符集。不是所有的字符都可以被映射,有一些字符组合在 COMPOSE 中不能工作,因为 Unicode 协会没有在 Oracle 所用的级别定义它们。

要快速地检查字符如何在一个特定的环境下查询,可以运行一个与下面的脚本类似的脚本,以查看在输出组合字符如何被映射。你可能需要确定一下NLS_LANG 设置以确保这些字符正确地返回:

create or replace type hexrange_tbl as table of varchar2(4);
/
show errors;

create or replace function hexrange(n1 varchar2,n2 varchar2)
return hexrange_tbl pipelined
is
begin
for i in to_number(n1,'000X') .. to_number(n2,'000X') loop
pipe row(to_char(i,'FM000X'));
end loop;
return;
end hexrange;
/
show errors;

select column_value composer,
compose(unistr('a\'||column_value)) a,
compose(unistr('c\'||column_value)) c,
compose(unistr('e\'||column_value)) e,
compose(unistr('i\'||column_value)) i,
compose(unistr('n\'||column_value)) n,
compose(unistr('o\'||column_value)) o,
compose(unistr('r\'||column_value)) r,
compose(unistr('s\'||column_value)) s,
compose(unistr('u\'||column_value)) u,
compose(unistr('y\'||column_value)) y
from table(hexrange('0300','0327')) x;

下面轻松一下,这里有一小段 PL/SQL 脚本,这段脚本使用COMPOSE 和UNISTR 创建一种特殊效果,很多 SMS 用户、黑客和垃圾邮件发送者都使用这种效果使可读英文文本难于扫描,因为它使用字符重音版本的一个随机序列。我使用DBMS_RANDOM 随机选取一个可由不同字符使用的组合字符,然后让 SQL 进行组合并进行反向转换以生成 ANSI/Latin-1 输出。这段脚本在代码中使用了 EMP 表的 ENAME 字段。

set serveroutput on;
declare
-- these combinations work under ANSI, at least
a_comb nvarchar2(50) := unistr('\0300\0301\0302\0303\0308\ 030A ');
c_comb nvarchar2(50) := unistr('\0327');
e_comb nvarchar2(50) := unistr('\0300\0301\0302\0308');
i_comb nvarchar2(50) := unistr('\0300\0301\0308');
n_comb nvarchar2(50) := unistr('\0303');
o_comb nvarchar2(50) := unistr('\0300\0301\0302\0303\0308');
u_comb nvarchar2(50) := unistr('\0300\0301\0302\0308');
y_comb nvarchar2(50) := unistr('\0301\0308');
l_idx integer;
l_ename nvarchar2(50);
ch nchar;
l_junk varchar2(50);
begin
dbms_random.initialize(to_char(sysdate,'SSSSS'));
for row in (select ename from emp) loop
l_ename := row.ename;
l_junk := null;
for i in 1..length(l_ename) loop
ch := substr(l_ename,i,1);
case lower(ch)
when 'a' then
l_junk := l_junk || compose(ch || substr(a_comb,
mod(abs(dbms_random.random),length(a_comb)) + 1,1));
when 'c' then
l_junk := l_junk || compose(ch || substr(c_comb,
mod(abs(dbms_random.random),length(c_comb)) + 1,1));
when 'e' then
l_junk := l_junk || compose(ch || substr(e_comb,
mod(abs(dbms_random.random),length(e_comb)) + 1,1));
when 'i' then
l_junk := l_junk || compose(ch || substr(i_comb,
mod(abs(dbms_random.random),length(i_comb)) + 1,1));
when 'n' then
l_junk := l_junk || compose(ch || substr(n_comb,
mod(abs(dbms_random.random),length(n_comb)) + 1,1));
when 'o' then
l_junk := l_junk || compose(ch || substr(o_comb,
mod(abs(dbms_random.random),length(o_comb)) + 1,1));
when 'u' then
l_junk := l_junk || compose(ch || substr(u_comb,
mod(abs(dbms_random.random),length(u_comb)) + 1,1));
when 'y' then
l_junk := l_junk || compose(ch || substr(y_comb,
mod(abs(dbms_random.random),length(y_comb)) + 1,1));
else
l_junk := l_junk || ch;
end case;
end loop;
dbms_output.put_line(to_char(l_junk));
end loop;
end;
/
show errors;

时间: 2024-09-23 16:18:45

使用COMPOSE和UNISTR 创建沉音字符的相关文章

cocos2d-x-cocos在win7下创建项目报字符错误

问题描述 cocos在win7下创建项目报字符错误 cocos版本3.8,vs2013,python3.4 执行python cocos.py new HelloCpp -p com.coco2dx.org -l cpp -d ~/Desktop 时报错 UnicodeDecodeError: 'gbk' codec can't decode byte 0x9a in position 29172: illega l multibyte sequence

celluloid如何创建个性化段落字符样式

  段落样式与字符样式概述: "段落样式"和"字符样式"能应用段落.字符快速.一致地更改文本外观.很有必要了解一下如何修改现有样式或创建我们自己的个性化样式,我们还可以保存当前段落样式与字符样式以方便下次使用.同时我们还可以导出.导入段落.字符样式. 当我们在编写文字信息时,就可以为不同类型的文本和段落创建不同的外观.例如,我们可以让所有大标题使用相同的字体.颜色和行间距,又或是将所有正文内容文字使其具有相同的外观. 段落样式.字符样式能确保文本内容样式规整统一.C

PostgreSQL Oracle 兼容性之 - COMPOSE , UNISTR , DECOMPOSE

背景 参考http://www.th7.cn/db/Oracle/2011-06-30/8490.shtml 很多语言,包括英语在内,都使用沉音字符(accented character). 因为这些字符不属于 ASCII 字符集,所以假如不查看 Unicode 值也不使用 Unicode 编辑器并将其转成一个已知字符集,就很难编写使用这些字符的代码. Oracle9i 引入了 COMPOSE 函数,该函数接受一串 Unicode 字符并规则化其文本. 这就意味着它可以接受一个字母和一个组合标记

Swift语法专题四——字符串与字符

Swift解读专题四--字符串与字符 一.引言         Swift中提供了String类型与Characters类型来处理字符串和字符数据,Swift中的String类型除了提供了许多方便开发者使用的方法外,还可以与Foundation框架的NSString类进行转换,使用起来十分方便. 二.String基础         在Swift中,使用双引号来定义字符串,开发者可以通过如下代码来创建一个字符串常量: let str = "Hello, playground" 可以通过

网页设计技巧:网页实用字符图标代替图片

文章简介:上一周我提出一个关于"在'响应式设计'中图像处理的关键问题"的概述:尤其是如何为各种尺寸的设备提供相适应的的图片?而今天我会认真考虑一下"字符图标",并且我们可以在我们的网页中使用"字符图标"来代替一些图片,达到一样的效果. 图片是有诸多优点的,然而目前在网站设计这行业面临各种各样的挑战.图片不但增加了总文件的大小,还增加了很多额外的"http请求",这都会大大降低网页的性能的.图片还有一个缺点就是不能很好的进行&q

XmlTextWriter创建XML文件

xml|创建 引言 随着XML的普及以及在动态WEB应用程序中大量应用,如何通过.NET创建,删除,修改XML文件变的也来也重要了.一个简单的概念是,XML文件跟大的文本文件并没有什么区别,同时它是先于.NET出现,很多ASP的开发者,当他需要程序输出XML文件的时候,通常都是用Response.Write()方法输出为XML文档. 使用Response.Write()的方式来输出XML文档,并不是一种那么好的方法,首先,我们用这种方法输出字符以组成XML文件的时候,我们会很担心输出的这些字符是

看实例学VFP:用sql命令创建表

本文是一个在vfp中使用sql命令创建表的实例.用sql命令创建表结构的格式如下: create table 表名 (字段名1 类型(宽度[,小数位]),字段名2 类型(宽度[,小数位]),-) 在看实例学VFP:示例数据库一文中已经给出了"网站信息表"的表结构如下表: 字段名 类型 宽度 编号 字符型 5 网站名称 字符型 12 网站网址 字符型 24 那么我要创建相同的表结构并且表名为"网站信息表2"的sql命令如下: create table 网站信息表2 (

浅谈Linux 中字符设备的注册

Linux中字符设备的注册过程是比较简单的.我们通常可以调用misc_register()函数来注册一个字符设备.Misc设备是一种字符设备,通过该设备可以将fops请求转发给注册的misc设备,从而实现字符设备的功能.用户调用该接口注册Misc字符设备时,可以动态分配设备Minor号,当获取Minor号之后调用class_simple_device_add()或者device_create()函数完成字符设备的创建.Misc字符设备注册函数如下所示: int misc_register(str

把360宽带测速器创建到桌面

  第一步:启动"宽带测速器".点击宽带测速器界面右上方的"创建桌面图标". 第二步:点击"创建桌面图标"之后,显示出了创建成功的字符.如果您的桌面上多了一个"360宽带测速器"的图标,就成功创建桌面图标了.你以后可以点击桌面上的"360宽带测速器"的图标进行网速测试了.