三种字符编码：ASCII、Unicode和UTF-8

原文:三种字符编码：ASCII、Unicode和UTF-8

什么是字符编码？

计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。

ASCII编码：

　　由于计算机是美国人发明的，因此，最早只有127个字母被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母 A 的编码是65，小写字母 z 的编码是122。

　　但是要处理中文显然一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来把中文编进去。

　　全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

Unicode编码：

　　因此，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

ASCII编码和Unicode编码的区别：

　　1）ASCII编码是1个字节，而Unicode编码通常是2个字节，举例如下。

　　字母 A 用ASCII编码是十进制的65，二进制的01000001；

　　字符 0 用ASCII编码是十进制的48，二进制的00110000，注意字符 '0' 和整数 0 是不同的；

　　汉字 中 已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101。

　　如果把ASCII编码的 A 用Unicode编码，只需要在前面补0就可以，因此， A 的Unicode编码是00000000 01000001。

UTF-8编码：

　　新问题的出现：如果统一成Unicode编码，乱码问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。

　　因此，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	-	01001110 00101101	11100100 10111000 10101101

　　从上面的表格可以发现UTF-8编码一个额外的好处，就是ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

计算机系统通用的字符编码工作方式：

　　在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

　　用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件：

　　浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：

　　所以很多网页的源码上会有类似<meta charset="UTF-8" />的信息，表示该网页正是用的UTF-8编码。

时间： 2024-08-31 09:48:15

三种字符编码：ASCII、Unicode和UTF-8的相关文章

字符集和字符编码（Charset & Encoding）

--每个软件开发人员应该无条件掌握的知识! --Unicode伟大的创想! 相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如"бЇЯАзЪСЯ"."�????????"?还记得HTTP中的Accept-Charset.Accept-Encoding.Accept-Language.Content-Encoding.Content-Language等消息头字段?这些就是接下来我们要探讨的. 目录: 1.基础知识 2.常用字符集和字符编码 2.1. ASCII字符

字符集和字符编码（Charset &amp; Encoding）_其它综合

相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如"бЇЯАзЪСЯ"."�????????"?还记得HTTP中的Accept-Charset.Accept-Encoding.Accept-Language.Content-Encoding.Content-Language等消息头字段?这些就是接下来我们要探讨的. 目录: 1.基础知识 2.常用字符集和字符编码2.1. ASCII字符集&编码2.2. GBXXXX字符集&编码2.3. BIG5字

解读HTML：命名空间与字符编码

在做项目的过程中,我们经常会建立各种各样的规范,以方便团队之间更好的合作更好的完成项目:同样我们也经常会听到各种各样的协议,比如Google的IM软件Gtalk使用的开放的XMPP协议,只要其他IM软件也遵循XMPP协议就能与Gtalk使用互通:而互联网上的信息无以计数,这些信息本身是独立存在的,如何将其串联并呈现在用户眼前,就需要使用到HTTP协议. 同样的道理,因为浏览器们各自的内核不同,对于默认样式的渲染也不尽相同,所以就需要一份各浏览器都遵循的规则来保证同一个网页文档在不同浏览器上呈现出

字符，字节和编码, ASCII码, DBCS码,SBCS码与Unicode码

字符,字节和编码, ASCII码, DBCS码,SBCS码与Unicode码 http://www.regexlab.com/zh/encoding.htm 1. 编码问题的由来,相关概念的理解 1.1 字符与编码的发展从计算机对多国语言的支持角度看,大致可以分为三个阶段: 系统内码说明系统阶段一 ASCII 计算机刚开始只支持英语,其它语言不能够在计算机上存储和显示. 英文 DOS 阶段二 ANSI编码(本地化) 为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字

字符编码终极笔记：ASCII、Unicode、UTF-8、UTF-16、UCS、BOM、Endian

1.字符编码.内码,顺带介绍汉字编码字符必须编码后才能被计算机处理.计算机使用的缺省编码方式就是计算机的内码.早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5. GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号.汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768.其中有5个空位是D7FA-D7FE. GB2312支持的汉字太少.1995年的汉字扩

字符编码笔记：ASCII，Unicode和UTF-8

今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚. 下面就是我的笔记,主要用来整理自己的思路.但是,我尽量试图写得通俗易懂,希望能对其他朋友有用.毕竟,字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识. 1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出2

字符编码知识：Unicode、UTF-8、ASCII、GB2312等编码之间是如何转换的？

转自: http://apps.hi.baidu.com/share/detail/17798660 字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得字符编码的知识.不注意的人可能对这个不在意,但这些名词有时候实在让人迷惑,对想学习计算机知识的人来说,搞懂它也十分重要,我也是在学习中慢慢了解了一些这方面的知识. 1. ASCII码在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被

字符编码笔记：ASCII，Unicode和UT…

字符编码笔记:ASCII,Unicode和UTF-8 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚. 下面就是我的笔记,主要用来整理自己的思路.但是,我尽量试图写得通俗易懂,希望能对其他朋友有用.毕竟,字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识. 1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(b

字符编码笔记 ASCII，Unicode和UTF-8_其它综合

1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte).也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111. 上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定.这被称为ASCII码,一直沿用至今. ASCII码一共规定了128个字符的编码

猜你喜欢

用javascript连接access数据库的方法

access|javascript|数据|数据库选择自 kindwell 的 Blog 这几天费了挺大力气在网上查找javascript连接access数据库的方法,经过整理总结,终于写出一 ...

浅析站长该如何做好电商网站的导航系统

这段时间里,一直负责中小型电商网站的优化,而网站也是刚刚上线不久,在优化的时候涉及到了很多优化内容,如结构优化.页面优化.内容优化等,几乎整个网站都是我在策划及优化.在优化结构的时候,老板特别重视网站 ...

耀辉医院SEO每日分享一帖之思考篇

耀辉最近在思考个问题:怎么样我们的医院才能在网络上长远.更好的盈利? 朋友也许会说:seo和竞价,这些耀辉都知道,但是随着百度越来越喜怒无常,也许不是站长优化过度,或是自身网站问题,而是百度人工干预, ...

基于mysql的bbs设计（二）

3.数据库设计关键还是mysql的效率问题,合理分配mysql的内存,特别是table cache的大小.另外,当系统突然掉电呢?mysql是否robust? table的名字设计,采用一 ...

Log4Net日志记录的两种方式

log4net库是Apache log4j框架在Microsoft .NET平台的实现,是一个帮助程序员将日志信息输出到各种目标(控制台.文件.数据库等)的工具. log4net是Apache软件基金 ...

iSee让你成为焦点人物

效果图: (P1) 人物彩色焦点 (P2) 人物模糊焦点 (P3) 静物彩色焦点制作过程: 1. 首先,要安装运行iSee图片专家3.747 2. 然后,打开需要处理的图片,在右侧点击[数码后期]- ...

PS制作经典的碧海蓝天水岸人家生态海报

photoshop教程效果原图素材方法最后加锐到什么程度看你自己的. 锐度过高了,云会显得很突出,呵呵.不过如果做lomo到是可以呢分类: PS图片处理

如何快速删除Excel中重复数据

在日常实际生活应用中,需要在大量数据中找到并删除重复数据,可以应用Excel 2007中的重复工具,完成对大量重复数据进行快速删除和修改.本例以Excel 2007为实例操作平台. 第一步.找到重 ...

鉴别二手笔记本电池新旧

刚刚把手头电池坏掉的笔记本卖了,准备再次淘一台笔记本.为了吸取上次的教训,我想好好检查一下电池.特地请教一下,二手笔记本电池一般应该如何检查,我不可能去测试待机时间,这个数据几乎没有什么价值. 系统之 ...

千兆网卡Intel 82567和82574的区别

最近有朋友问我:T260 G3集成的Intel 82567和82574都是千兆网卡,他们有什么性能差别? 网卡芯片NIC是一个同时工作在OSI七层协议里面物理层和数据链路层的设备,这样的话NIC也 ...

百度公共dns地址是多少？

百度正式宣布推出公共DNS:180.76.76.76,百度公共DNS主打云防护.无劫持和精准性三大特点.官方表示可防止恶意跳转以及恶意广告,同时遍布全国的CDN网络可以让定位更加准确. DNS在现 ...

path-JWplayer 视频播放器 file 路径问题

问题描述 JWplayer 视频播放器 file 路径问题 http://localhost:8080/linktrust/dfs/download?fileId=group1/M00/00/35/r ...

java ee-hibernate的xml映射配置文件相关的问题

问题描述 hibernate的xml映射配置文件相关的问题 hibernate的xml映射配置文件出现了这样的问题:The content of element type "many-to- ...

【Oracle12.2新特性掌上手册】-第八卷 PDB的快速创建与移除

编辑手记:在Oracle12.2 中提供了多种创建PDB的方式,能够更快速便捷地实现数据库的扩展和变更.今天我们来介绍通过SQL*Plus管理的方式. 注:文档内容来自于官方文档翻译,想了解更多信息请 ...

gc concurrent-应用在屏幕锁屏后再无响应

问题描述应用在屏幕锁屏后再无响应最近做一个应用,log一直在打印 GC_CONCURRENT freed 433k7% free 7975K/8564Kpaused 12ms+4ms total ...

基于Libevent的HTTP Server

简单的Http Server 使用Libevent内置的http相关接口,可以很容易的构建一个Http Server,一个简单的Http Server如下: #include <event2/e ...

课后思考题1：C语言用递归算法，计算x的y次方，其中y是正整数

问题描述课后思考题1:C语言用递归算法,计算x的y次方,其中y是正整数课后思考题1:C语言用递归算法,计算x的y次方,其中y是正整数解决方案 int foo(int x, int y) { if ...

windows phone-手机访问时自动跳转到手机网站上，PC访问时自动跳转到PC网站上

问题描述手机访问时自动跳转到手机网站上,PC访问时自动跳转到PC网站上 function mobile_device_detect(url) { var thisOS = navigator.pla ...

桌面应用程序-用云服务器来跑c#服务端

问题描述用云服务器来跑c#服务端我写了一个c#桌面应用程序,有客户端和服务器端,平常用朋友的电脑来跑客户端,我想用云服务器来跑我的服务端,这样可以吗,用什么比较好呢.用云服务器来跑c#服务端解 ...

jsp跳转异常-jsp跳转出现罕见的404异常

问题描述 jsp跳转出现罕见的404异常 String skip= """"; request.setAttribute(""skip&qu ...

【数据蒋堂】第20期：从SQL语法看离散性

所谓离散性,是指集合的成员可以游离在集合之外存在并参与运算,游离成员还可以再组成新的集合.从离散性的解释上可以知道,离散性是针对集合而言的一种能力,离开集合概念单独谈离散性就没有意义了. 离散性是个很 ...

8成受访者表示3DS的零售定价过贵

(编译/于子将)据海外媒体消息,任天堂预定将于明年2月率先在日本推出3DS主机,官方定价25000日元(约合305美元.2000元人民币).面对这样一个价格,作为消费者的玩家们又是如何看待的呢. 据一 ...

《SQL入门经典（第5版）》一一1.3 SQL命令的类型

1.3 SQL命令的类型 SQL入门经典(第5版) 下面将讨论执行各种功能的SQL命令的基本分类.这些功能包括绑定数据库对象.操作对象.用数据填充数据库表.更新表里的现有数据.删除数据.执行数据库查询 ...

开通局域网共享(访问本机无需验证即可进入的bat和注册表文件_DOS/BAT

开通局域网共享(访问本机无需验证即可进入).cmd 复制代码代码如下: @ ECHO OFF @ ECHO. @ ECHO. 说明 ...

常用PHP框架功能对照表_php实例

本文讲述了常用PHP框架功能的对照表,对于进行PHP框架程序开发来说具有一定的实用价值.分享给大家供大家参考.具体分析如下: 自接触PHP开发以来,已使用了不少框架,虽然对每个框架都没有专研至深,但对 ...

小脑袋解析如何分析竞价账户

通常账户初始时建立的计划和单元,会存在不足和遗漏,并没有达到良好的效果.因此,就必须分析自己的账户,找出其中存在的问题和不足,进行合理的修改,逐步走向完善. &http://www.aliyu ...

CNNIC—ISC互联网技术联合实验室成立

本报讯 (张凤莎)为有效解决域名系统的安全漏洞问题,提供更加可靠的互联网基础服务,近日,中国互联网络信息中心(CNNIC)与全球领先的域名技术组织互联网软件系统联盟(ISC)成立互联网技术联合实验室, ...

新浪微博的大数据策略

北京时间10月7日上午消息新浪联席总裁兼首席技术官许良杰上周六出席了硅谷华源科技协会2013年会,并在会议间隙接受了当地数家媒体采访.他在采访中表示,新浪将通过大数据整合门户与微博等诸多业务, ...

Nginx配置中的 root 与 alias 指令区别详解

root和alias都可以定义在location模块中,都是用来指定请求资源的真实路径,比如: location /i/ { root /data/w3; } 请求 http://foofis ...

宏碁创始人施振荣选择了戴尔、联想曾经走过的一条路

在PC业务遇到困难时,宏碁创始人施振荣选择了戴尔.联想曾经走过的一条路:创始人复出挽救公司.2013年11月,接近70岁高龄的施振荣重新出山,担任宏碁集团董事长.CEO和总裁.时隔半年,施振荣提出将卸 ...

热搜