简单谈谈php中的unicode和utf8编码

重新认识unicode和utf8编码

直到今天，准确的说是刚才，我才知道UTF-8编码和Unicode编码是不一样的，是有区别的囧
他们之间是有一定的联系的，看看他们的区别：
UTF-8的长度是不一定的，有可能是1、2、3字节
Unicode长度一定，2个字节（USC-2）
UTF-8可以和Unicode互相转换

unicode和utf8的关系

Unicode(16进制)

UTF-8(二进制)

0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

上面的表格有2个意思，第一个显而易见就是说Unicode和UTF-8字符范围的对应，还有一个可以看出Unicode怎么和UTF-8互相转换：

先说UTF-8到Unicode的转换

UTF-8编码的二进制和上面的3种格式进行匹配，匹配到之后去掉固定位（表格中的非x位置），然后从右到左每8位一组，不够8位左边不领，凑够2个字节16 bits，这16 bits所表示的就是UTF-8对应的Unicode编码，看看下面几个例子：

上面图片中的文字编码格式为UTF-8，可以用WinHex看到其16进制表示

代码如下:

字符 => UTF-8 => UTF-8二进制=> 去掉固定位置凑够16位的二进制 => 16进制

汉 => E6B189 => 11100110 10110001 10001001 => 01101100 01001001 => 6C49
字 => E5AD97 => 11100101 10101101 10010111 => 01011011 01010111 => 5B57

#下面是在chrome命令行下面运行的结果
'u6C49'
"汉"
'u5B57'
"字"

#到这里的话，从UTF-8转换到Unicode已经是一件非常容易的事了，看看转换的伪代码
读取一个字节，11100110
判断该UTF-8字符的格式，属于第三种，3个字节
继续读取2个字节得到 11100101 10101101 10010111
按照格式去掉固定位 1011011 01010111
不够16位，左边补零 01011011 01010111 => 5B57

再看看从Unicode到UTF-8的转换

复制代码代码如下:

5B57
获取5B57所在的Unicode范围，0800 <= 5B57 <= FFFF，得知5B57的UTF-8有三个字节，形式为1110xxxx 10xxxxxx 10xxxxxx
获取5B57的二进制编码 101101101010111
用上一步骤的二进制编码从右至左拼接UTF-8编码 11100101 10101101 10010111

说说问题

再说说今天这个问题的起因，从前端输入很多单词，UTF-8格式每个词最多30个字节，因此会在前端和后台分别做验证，javascript用的是Unicode编码，后端程序用的是UTF-8编码，现在的解决办法是这样

前端

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

function utf8_bytes(str)
{
var len = 0, unicode;
for(var i = 0; i < str.length; i++)
{
unicode = str.charCodeAt(i);
if(unicode < 0x0080) {
++len;
} else if(unicode < 0x0800) {
len += 2;
} else if(unicode <= 0xFFFF) {
len += 3;
}else {
throw "characters must be USC-2!!"
}
}
return len;
}

#例子
utf8_bytes('asdasdas')
8
utf8_bytes('yrt燕睿涛')
12

后台

1
2
3
4

#对于GBK字符串
$len = ceil(strlen(bin2hex(iconv('GBK', 'UTF-8', $word)))/2);
#对于UTF8字符串
$len = ceil(strlen(bin2hex($word))/2);

以上所述就是本文的全部内容了，希望大家能够喜欢。

时间： 2024-10-01 19:46:22

简单谈谈php中的unicode和utf8编码的相关文章

简单谈谈php中的unicode和utf8编码_php技巧

重新认识unicode和utf8编码直到今天,准确的说是刚才,我才知道UTF-8编码和Unicode编码是不一样的,是有区别的囧他们之间是有一定的联系的,看看他们的区别: UTF-8的长度是不一定的,有可能是1.2.3字节 Unicode长度一定,2个字节(USC-2) UTF-8可以和Unicode互相转换 unicode和utf8的关系 Unicode(16进制) UTF-8(二进制) 0000 - 007F 0xxxxxxx 0080 - 07FF 110xxxxx 10xxxxxx

J2ME中读取Unicode和UTF-8编码文件

一.读取Unicode文件/** * 读取Unicode编码文本文件 * @param resource String - 文件名 * @return String - Unicode文本 */ public static String read_Uni(String resource) { byte word_uni[] = new byte[1024]; String strReturn = null; InputStream is; try { is = instance.getClass

php对unicode转utf-8编码

如果只是unicode转utf-8编码的算法,网上到处都是了,不过很多人也是你抄我,我抄你,根本就不理解why和do,本文除了给出最简单的php对unicode转utf-8编码函数之外,也深入讨论了这两种编码的关系,理解好了会发现网上一些旧的东西,是严重多余兼过期的,因为从utf-8流行开始到现在,早已经由原来六字节可变编码到实际完全居于unicode(UCS-2)的稳定阶段. unicode编码是实现utf-8与gb系列编码(gb2312.gbk.gb18030)转换的基础,虽然我们也

PHP如何实现Unicode和Utf-8编码相互转换_php技巧

最近恰好要用到unicode编码的转换,就去查了一下php的库函数,居然没找到一个函数可以对字符串进行Unicode的编码和解码!也罢,找不到的话就自己实现一下了...Unicode和Utf-8编码的区别 Unicode是一个字符集,而UTF-8是Unicode的其中一种,Unicode是定长的都为双字节,而UTF-8是可变的,对于汉字来说Unicode占有的字节比UTF-8占用的字节少1个字节.Unicode为双字节,而UTF-8中汉字占三个字节. UTF-8编码字符理论上可以最多到6个字节长

javascript中的Base64、UTF8编码与解码详解

本文给大家介绍的是javascript中的Base64.UTF8编码与解码的函数源码分享以及使用范例,十分实用,推荐给小伙伴们,希望大家能够喜欢. Base64编码说明 Base64编码要求把3个8位字节(3*8=24)转化为4个6位的字节(4*6=24),之后在6位的前面补两个0,形成8位一个字节的形式. 如果剩下的字符不足3个字节,则用0填充,输出字符使用'=',因此编码后输出的文本末尾可能会出现1或2个'='. base64编码库:(已验证可用) 代码如下: var base

简单谈谈MySQL中的int(m)_Mysql

我们在设计表的时候,如果碰到需要设置int(整型)的时候,通常会按照惯例(大家都这样写)设置成int(11).那么这里为什么是11呢?代表的又是什么呢? 以前我一直以为这里是在限制int显示的宽度,后来仔细研究和通过上网查询发现,事实并不是那样的. 确切的来说,这里的"宽度"只是一个"预期值",它所代表的仅仅是你在设计数据表结构时,想让该列日后显示的值宽度为多少,但是具体存入值的宽度多少不会受任何影响. 当然,它的作用不仅如此,在存入数据的时候,还是有一定区别的,这

javascript中的Base64、UTF8编码与解码详解_javascript技巧

Base64编码说明 Base64编码要求把3个8位字节(3*8=24)转化为4个6位的字节(4*6=24),之后在6位的前面补两个0,形成8位一个字节的形式. 如果剩下的字符不足3个字节,则用0填充,输出字符使用'=',因此编码后输出的文本末尾可能会出现1或2个'='. base64编码库:(已验证可用) 复制代码代码如下: var base64 = (function(){ var keyStr = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmn

简单谈谈Python中的闭包_python

Python中的闭包 1. 闭包的概念首先还得从基本概念说起,什么是闭包呢?来看下维基上的解释: 复制代码代码如下: 在计算机科学中,闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数.这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外.所以,有另一种说法认为闭包是由函数和与其相关的引用环境组合而成的实体.闭包在运行时可以有多个实例,不同的引用环境和相同的函数组合可以产生不同的实例. .... 上面提到了两个关键的地方:

简单谈谈Python中的反转字符串问题_python

按单词反转字符串是一道很常见的面试题.在Python中实现起来非常简单. def reverse_string_by_word(s): lst = s.split() # split by blank space by default return ' '.join(lst[::-1]) s = 'Power of Love' print reverse_string_by_word(s) # Love of Power s = 'Hello World!' print reverse_stri

猜你喜欢

vivo浏览器默认设置怎么取消

vivo浏览器使用教程: 从桌面上打开"浏览器",浏览器界面如下: 1.您可以对浏览器进行如下操作: - 输入网址访问:点击"输入网址"框,在网址输入框中输 ...

扬扬的J2EE学习笔记（二）J2EE的客户端/服务器

j2ee|笔记|服务器|客户端每周学一些J2EE,作点笔记. 目标:能熟练使用Websphere做J2EE的开发工作. 加油!加油!!加油!!! 图3 J2EE场景图三里须注意的是: 1.Tier ...

个人站长创业三大建议：创业创新与治理

互联网协会:给个人站长创业的三大建议中国互联网协会常务副理事长高新民在厦门站长大会上向个人站长提出三个建议: 第一,创业. 其实站长们都是利用互联网进行创业的开拓者或者说是利用创业的一些先锋,利用互 ...

创业团队必备的四类人才

组织领导能力教练罗尔斯顿(Faith Ralston)在www.refresher.com上发表文章,指出一个团队需要具备四种人才,才能确保工作项目的圆满完成与改革措施的顺利实施. 方块型人才(dia ...

ASP.NET 验证控件安全隐患

asp.net|安全|安全隐患|控件本文就是给过分相信,ms asp.net 验证控件的,和 js 验证的朋友的一个忠告!请不要用本方法去黑人. ASp.net 的全部客户端验证控制都是放在一个: ...

我收藏的Transact

初学 *******************Transact_SQL******************** --语句功能--数据操 ...

Math.ArcCos Math.ArcCosh Math.ArcCot Math.ArcCotH Math.ArcCsc Math.ArcCscH Math.ArcSec Math.ArcSecH ...

php 类自动载入的方法

在PHP5之前,各个PHP框架如果要实现类的自动加载,一般都是按照某种约定自己实现一个遍历目录,自动加载所有符合约定规则的文件的类或函数. 当然,PHP5之前对面向对象的支持并不是太好,类的使用也 ...

ado.net执行oracle 存储过程

ado.net执行oracle 存储过程如下: OracleConnection con=new OracleConnection(strcon); OracleCommand cmd=new O ...

linux技巧之使用screen管理你的远程会话

linux技巧-使用screen管理你的远程会话当我们用ssh或是telent远程登录到linux服务器上,运行一些长时间的任务,必须等待任务完成才能离开该界面.在此期间不能关闭窗口或者断开连接.否 ...

css3元素简单的闪烁效果实现

本篇文章主要介绍了css3元素简单的闪烁效果实现(html5 jquery) 需要的朋友可以过来参考下,希望对大家有所帮助 css3 Animation: 代码如下: @-webkit-keyfr ...

轻松安装Win8第三方软件的技巧

Win8轻松安装第三方软件的技巧: 1.安装优化大师 2.打开进入一键越狱,注意要联网 3.越狱成功,开心的下第三方metro风格应用吧 Windows8系统最受限制的就是软件的下载必须到官方的应 ...

Win8如何获得浏览Windows备份VHD文件的权限

Win8获得浏览Windows备份VHD文件的权限的方法如下: Windows 8 备份文件后,VHD 文件会生成在备份时选择的磁盘根目录下"x:WindowsImageBackup用户 ...

更换win7主题时怎样保持桌面图标不变

人都会有审美疲劳,在看一个东西看久了之后就会觉得美中不足,对于win7系统的主题也是一样的,所以每隔一段时间,大家就会换换自己的电脑主题,但是这个时候就出现一个问题,在更换主题的时候,往往桌面的图 ...

酷狗音乐2015怎么用

一. 基本介绍酷狗(KuGou/KuGoo)是国内最大也是最专业的P2P音乐共享软件,拥有超过数亿的共享文件资料,深受全球用户的喜爱,拥有上千万使用用户. 软件特点: 1. 迷你界面更精致界面 ...

修改PE系统设定的2种方法

一.修改内部注册表的方法. 1.首先将内部注册表的文件提取出来: WXPESYSTEM32CONFIG*.*WXPESYSTEM32SETUPREG.HI_(这是CAB压缩包,将它解开成SETUP ...

显示-android 键盘一个小问题

问题描述 android 键盘一个小问题键盘输入每个字母的时候都会弹个小框框然后显示这个字母. 如果要取消这个提示如何实现 .

javascript-江湖救急Js截取字符串

问题描述江湖救急Js截取字符串 ../../../../../Project 如和截取成 ../../../../ 救急啊谢谢解决方案使用 substring()或者slice() 函数:sp ...

ASP.NET Core的配置（2）：配置模型详解

在上面一章我们以实例演示的方式介绍了几种读取配置的几种方式,其中涉及到三个重要的对象,它们分别是承载结构化配置信息的Configuration,提供原始配置源数据的ConfigurationProvi ...

04springMVC结构，mvc模式，spring-mvc流程，spring-mvc的第一个例子，三种handlerMapping，几种控制器，springmvc基于注解的开发，文件上传，拦截器，s

1. Spring-mvc介绍 1.1市面上流行的框架 Struts2(比较多) Springmvc(比较多而且属于上升的趋势) Struts1(即将被淘汰) 其他 1.2 spring-mv ...

经典算法题每日演练——第二十题三元组

我们知道矩阵是一个非常强大的数据结构,在动态规划以及各种图论算法上都有广泛的应用,当然矩阵有着不足的地方就是空间和时间复杂度都维持在N2上,比如1w个数字建立一个矩阵,在内存中会占 ...

[jjzhu学java]之自动装箱的陷阱

自动装箱.拆箱的陷阱装箱与拆箱 java语言中为每种基本数据类型(int,float,double-)都提供了与之对应的包装器类型(Integer,Float,Double).从java se5之后 ...

深入探索 Java 热部署

在 JAVA 开发领域,热部署一直是一个难以解决的问题,目前的 JAVA 虚拟机只能实现方法体的修改热部署,对于整个类的结构修改,仍然需要重启虚拟机,对类重新加载才能完成更新操作.对于某些大型的应用来 ...

c语言-一个C语言初学者的疑问

问题描述一个C语言初学者的疑问我是一个初学者,希望各位大神能帮我看看这串代码错在哪了,我用的IDE是VS2013,编写C语言代码,拜托了 #include #define N 3 struct S ...

如何在asp.net 2005 写dll才能asp.net2003 使用(c#)？（立即给分）

问题描述如何在asp.net2005写dll才能asp.net2003使用(c#)?我在asp.net2003引用2005写的dll出现错误:引用的"不是有效的程序集或者com组件&quo ...

AI是重要卖点京东技术团队讲解双十一攻坚战

在临近今年双十一还有两个周的时间点,京东团队从技术角度,详解了如何打好618.准备双十一的攻坚战. 技术加持大促京东商城首席架构师刘海峰表示,每年的"大促",都是研发的一场重要的 ...

上海正成为新生代最青睐的打工城市

本报讯 (记者刘栋)上海正成为新生代最青睐的打工城市,其较好的工作发展机遇是影响打工者选择的最主要原因.日前,大谷打工网就新生代打工者生存状态进行了调查,选择了1万多名在北京.上海.广州等城市打工的新 ...

再会,Unite 2017 Shanghai

5月为期三天的Unite 2017 Shanghai圆满结束.Unite 是一年一度国内外Unity开发者齐聚的盛会,这是第六界在中国地区举行的盛会,也是Unite 亚洲行中规模最大的一站.本次Uni ...

数据管理(DMS)：谁动了线上数据？

前段时间在和一个客户沟通时,他们反馈,数据库已经顺利上云了,但是现在管理起来有一个很大的隐患:因为研发人员较多,线上数据库结构被修改了,需要问一圈才知道是谁因为什么修改的.而这背后还有一个更大的隐患, ...

uva 147 Dollars(完全背包)

点击打开链接uva 147 思路: 完全背包分析: 1 很明显裸的完全背包,注意一个地方就是输入的值不一定是小数点只有2位,这边我们应该分成两部分输入,最后注意输出即可代码: #include&l ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.027 s.