Unicode和UTF-8

Unicode和UTF-8


2. Unicode和UTF-8

为了统一全世界各国语言文字和专业领域符号(例如数学符号、乐谱符号)的编码,ISO制定了ISO 10646标准,也称为UCS(Universal Character Set)。UCS编码的长度是31位,可以表示231个字符。如果两个字符编码的高位相同,只有低16位不同,则它们属于一个平面(Plane),所以一个平面由216个字符组成。目前常用的大部分字符都位于第一个平面(编码范围是U-00000000~U-0000FFFD),称为BMP(Basic Multilingual Plane)或Plane 0,为了向后兼容,其中编号为0~256的字符和Latin-1相同。UCS编码通常用U-xxxxxxxx这种形式表示,而BMP的编码通常用U+xxxx这种形式表示,其中x是十六进制数字。在ISO制定UCS的同时,另一个由厂商联合组织也在着手制定这样的编码,称为Unicode,后来两家联手制定统一的编码,但各自发布各自的标准文档,所以UCS编码和Unicode码是相同的。

有了字符编码,另一个问题就是这样的编码在计算机中怎么表示。现在已经不可能用一个字节表示一个字符了,最直接的想法就是用四个字节表示一个字符,这种表示方法称为UCS-4或UTF-32,UTF是Unicode Transformation Format的缩写。一方面这样比较浪费存储空间,由于常用字符都集中在BMP,高位的两个字节通常是0,如果只用ASCII码或Latin-1,高位的三个字节都是0。另一种比较节省存储空间的办法是用两个字节表示一个字符,称为UCS-2或UTF-16,这样只能表示BMP中的字符,但BMP中有一些扩展字符,可以用两个这样的扩展字符表示其它平面的字符,称为Surrogate Pair。无论是UTF-32还是UTF-16都有一个更严重的问题是和C语言不兼容,在C语言中0字节表示字符串结尾,库函数
strlen

strcpy
等等都依赖于这一点,如果字符串用UTF-32存储,其中有很多0字节并不表示字符串结尾,这就乱套了。

UNIX之父Ken Thompson提出的UTF-8编码很好地解决了这些问题,现在得到广泛应用。UTF-8具有以下性质:

编码为U+0000~U+007F的字符只占一个字节,就是0x00~0x7F,和ASCII码兼容。

编码大于U+007F的字符用2~6个字节表示,每个字节的最高位都是1,而ASCII码的最高位都是0,因此非ASCII码字符的表示中不会出现ASCII码字节(也就不会出现0字节)。

用于表示非ASCII码字符的多字节序列中,第一个字节的取值范围是0xC0~0xFD,根据它可以判断后面有多少个字节也属于当前字符的编码。后面每个字节的取值范围都是0x80~0xBF,见下面的详细说明。

UCS定义的所有231个字符都可以用UTF-8编码表示出来。

UTF-8编码最长6个字节,BMP字符的UTF-8编码最长三个字节。

0xFE和0xFF这两个字节在UTF-8编码中不会出现。

具体来说,UTF-8编码有以下几种格式:

U-00000000 – U-0000007F:  0xxxxxxx
U-00000080 – U-000007FF:  110xxxxx 10xxxxxx
U-00000800 – U-0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx
U-00010000 – U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 – U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 – U-7FFFFFFF:  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

第一个字节要么最高位是0(ASCII字节),要么最高两位都是1,最高位之后1的个数决定后面有多少个字节也属于当前字符编码,例如111110xx,最高位之后还有四个1,表示后面有四个字节也属于当前字符的编码。后面每个字节的最高两位都是10,可以和第一个字节区分开。这样的设计有利于误码同步,例如在网络传输过程中丢失了几个字节,很容易判断当前字符是不完整的,也很容易找到下一个字符从哪里开始,结果顶多丢掉一两个字符,而不会导致后面的编码解释全部混乱了。上面的格式中标为x的位就是UCS编码,最后一种6字节的格式中x位有31个,可以表示31位的UCS编码,UTF-8就像一列火车,第一个字节是车头,后面每个字节是车厢,其中承载的货物是UCS编码。UTF-8规定承载的UCS编码以大端表示,也就是说第一个字节中的x是UCS编码的高位,后面字节中的x是UCS编码的低位。

例如U+00A9(?字符)的二进制是10101001,编码成UTF-8是11000010 10101001(0xC2 0xA9),但不能编码成11100000 10000010 10101001,UTF-8规定每个字符只能用尽可能少的字节来编码。


时间: 2024-11-08 23:12:17

Unicode和UTF-8的相关文章

支持UNICODE/UTF8/ANSI之间的转换的类

ZUtf8_16.h文件: //---------------------------------------------------------------------------#ifndef ZUtf8_16H#define ZUtf8_16H//---------------------------------------------------------------------------/* 支持UNICODE,UNICODE BE ,UTF8,ASCII之间的转换的类. 日期:2

ANSI、UNICODE、UTF-8、GB2312、GBK、DBCS、UCS的区别和由来。

科普一下,自己也学习一下~~~~~       一直对字符的各种编码方式懵懵懂懂,什么ANSI.UNICODE.UTF-8.GB2312.GBK.DBCS.UCS--是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们.Let's go!              很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".     再后来,他们又做了一些可以处理这些字节的机器,机器开动了,

unicode ansi utf-8 unicode_big_endian编码的区别

随便说说字符集和编码  快下班时,爱问问题的小朋友Nico又问了一个问题:  "sqlserver里面有char和nchar,那个n据说是指unicode的数据,这个是什么意思."  并不是所有简单的问题都很容易回答,就像这个问题一样.于是我答应专门写一篇BLOG来从头讲讲编码的故事.那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起.嗯,也许这样开始比较好--  很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的

java实现十六进制字符unicode与中英文转换示例_java

关于unicode和utf的关系,可以简单的记忆:Unicode是一个编码组织.一个编码规范.在java中指utf-16:utf是Unicode编码的translation转换格式,以便于很好地在网络中传递.在存储媒介汇总保存,于是utf存在多种格式,如8.16.32,而关联le.te的区别,Unicode编码格式才会有以下过程中的10种. 复制代码 代码如下: public static void main(String[] args) throws UnsupportedEncodingEx

编码相关

字典上定义  Unicode:万国码 (一种国际标准字符集, 为世界上绝大多数已知的字符集定义了唯一的16位数值)  区别  ASCII:8位,单字节,可表示256个字符,美国标准,可满足大多数拉丁语系国家的要求.  Unicode:16位,双字节,了表示65536个字符,基本满足各国语言的编码.  简单的说,Unicode扩展自ASCII,可以理解为Unicode是ASCII的补充.   展望  Unicode征服ASCII 成互联网最常用编码.  Google资深国际软件架构师Mark Da

深入剖析JSP和Servlet对中文的处理

js|servlet|中文 世界上的各地区都有本地的语言.地区差异直接导致了语言环境的差异.在开发一个国际化程序的过程中,处理语言问题就显得很重要了. 这是一个世界范围内都存在的问题,所以,Java提供了世界性的解决方法.本文描述的方法是用于处理中文的,但是,推而广之,对于处理世界上其它国家和地区的语言同样适用. 汉字是双字节的.所谓双字节是指一个双字要占用两个BYTE的位置(即16位),分别称为高位和低位.中国规定的汉字编码为GB2312,这是强制性的,目前几乎所有的能处理中文的应用程序都支持

深入剖析JSP和Servlet对中文的处理过程

js|servlet|过程|中文 概述 世界上的各地区都有本地的语言.地区差异直接导致了语言环境的差异.在开发一个国际化程序的过程中,处理语言问题就显得很重要了. 这是一个世界范围内都存在的问题,所以,Java提供了世界性的解决方法.本文描述的方法是用于处理中文的,但是,推而广之,对于处理世界上其它国家和地区的语言同样适用. 汉字是双字节的.所谓双字节是指一个双字要占用两个BYTE的位置(即16位),分别称为高位和低位.中国规定的汉字编码为GB2312,这是强制性的,目前几乎所有的能处理中文的应

编码、乱码问题

原文: http://gsdhaiji-cai.iteye.com/blog/1148049 一.编码进程 [01编码]--很久很久以前,为了表示二极管的通.分,我们引入的高电平.低电平,之后又引入的1.0编码进行代替   [ASCII编码]--很久以前,也就是上个世纪60年代,美国佬为了把计算机的"0101010"编码与文字进行对应起来,制定了一套ASCII编码方案.人总是自私的,他只对自己的语言进行编码,26个字母.数字.其他符号,只用了7位二进制数搞定,第一位用0表示,预留着.所

字符集和字符编码(Charset & Encoding)

--每个软件开发人员应该无条件掌握的知识! --Unicode伟大的创想! 相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如"бЇЯАзЪСЯ"."�????????"?还记得HTTP中的Accept-Charset.Accept-Encoding.Accept-Language.Content-Encoding.Content-Language等消息头字段?这些就是接下来我们要探讨的. 目录: 1.基础知识 2.常用字符集和字符编码 2.1. ASCII字符

做网站用UTF-8还是GB2312?

经常我们打开外国网站的时候出现乱码,又或者打开很多非英语的外国网站的时候,显示的都是口口口口口的字符, wordpress程序是用的UTF-8,很多cms用的是GB2312. ● 为什么有这么多编码? ● utf-8和GB2312有什么区别? ● 我们在国内做网站是用UTF-8编码格式还是GB2312编码格式好? 一.各种编码的来历 可能很多同学一直对字符的各种编码方式懵懵懂懂,根本搞不清为什么他们有这么多编码 ==========================================