GBK字符编码(字符集)缺陷导致web安全漏洞_其它综合

多字节编码由来
我们先来看看最常用的,最小字符集是ascii,对应的二级制可以表示为:00-7F 编码 。它也是我们计算机使用最早通用的字符集。前期几乎可以表示所有英文字符。后来,更多使用计算机国家加入后,我们就想在计算机中表示中文字符。我们知道常见中文就有7000多个字符。ascii码就只有128字符,只有0-127编码位置,远远不够用了。因此,我们就开始制作更大字符集,并且保证兼容ascii编码。要支持更多字符,选择更大字符集。我们只能用多个字节来描述一个字符了。为了很好的与ascii码,区分开来!一般做法是:每个字节值都大于>7F,如果是2个字节,那么就是:[>7F][>7F]。这样编码,保证很好的与ascii区分开,并且扩大了字符集。像gb2312范围在[0xA1-0xF7][0xA1-0xFE](中间很多没有填满),它完全保证所有字节在A0之上,也就完全满足在7F之上了。
GBK编码漏洞缘由
通过上面的分析,我们知道gb2312编码是很好的跟ascii码分开了。 那么我们看看,GBK编码呢,它是完全兼容gb2312(就是说在gb2312字符集中每个字符位置,与gbk字符集里面位置完全一致,而且包含于gb2312),但是,它有2万多个字符。从上面看,只能选择往下排序了。 就是从A1A0往下排了,我们发现它编码实际范围是:[0x81-0xFE]([0x40-0x7E|0x80-0xFE] ) (GBK编码),我们发现由2个字节组成,首字节范围在7F之上,而第2个字节,有一部分在0x40-0x7E了。这就是导致bug原因。我们看看下面例子吧!

从ASCII码表中,我们知道0x40-0x7E 包含字符有:“

选择gbk编码,运行上面代码,就一条简单的命令导致出现错误,说字符串 赋值 没有结束! 呵呵,估计很多人看到这个就会认为是php 出Bug了。但是,如果我们变成$a=”誠a”,发现可以正常运行了。是不是觉得很奇葩啦!!

原因分析:我们知道文件存在磁盘都是二级制方式,无论你存什么字符,最终都是以该字符的在所选字符集中字符编码保存。php解析时候,最小分析单元是字节。无论你是多字节还是单字节字符。最终都是按照字节来处理的。“誠” GBK编码是 D55C,php按字节来解释,5C对应字符是“\” 字符。后面直接跟个‘”',相当于被转义了。 因为没有闭合,因此出现错误!。大家看出问题所在了吧,按自己处理的话,会自然把多字节拆成单字节了。这样就会出现很多奇怪问题了。
总结:通过上面讲解,我们知道了多字节编码过程,以及GBK导致简单程序出错的原因。其实,我们很多程序语言里面,都会以单个字节来解析的。这样,当你选择多字节GBK编码中文时,刚好有字节落在特殊位置,将会出现奇怪错误问题。而且,还将给系统带来本身的漏洞,后面我再说说,GBK编码缺陷,导致漏洞、以及专门利用该编码漏洞缺陷进行系统入侵!好了,先到这里了,欢迎交流!

GBK字符编码(字符集)缺陷攻击(注入)原理

上一节,我们分析了。选择不同编码可能会导致程序带来本身潜在的漏洞。这次我们以GBK编码为例,看看怎么样通过该编码注入到系统中。目前很多开源系统都存在类似的注入问题。我们先来,从一个Demo开始!

GBK字符集漏洞注入原理

<?php
$u=isset($_GET['u'])? $_GET['u']:'';
$u=addslashes($u);
$sql = "select * from user where user='$u'";

以上是我们写的一个测试例子(GBK编码),现在很多开源系统,比较少的进行统一参数过滤,有时候为了防止注入,就直接对参数进行转义处理。我们看看,这样一个例子,我们怎么样注入进系统!

步骤 备注
1.传入值%D5%27 or 1=1# u参数参入上面值 (%27 对应是“'” 单引号字符)
2.GET获取的值 0xD50x27 or 1=1#
3.Addslashes后值 0xD50x5C0x27 or 1=1 (意思是:誠' or 1=1#') #字符后面被注释掉
4.sql值 将变成 select * from user where user='誠' or 1=1#'
#号是sql注释符号,后面字符将截取掉

GPC转义打开,或者是通过addslashes函数,会自动在字符是单引号(‘)、双引号(")、反斜线(\)与 NUL(NULL 字符)等字符前面增加“\”字符(0x5c),例子里面,我们采用一个特殊前面字节0xD5,它将与该字节组合变成:0xD50x5c ,刚好是gbk字符集中字符:”誠“ 了。 后面的0×27这个单引号被保留下来了!

GBK字符集漏洞注入总结

呵呵,这个很有意思吧,好了。我们来总结下,这类注入是2个条件的。第一是:gbk编码,第二是:程序采用了转义方法,转义了输入。 这2个条件不苛刻,目前大部分开源系统都有gbk,utf-8编码的源码,剩下的就去看看,源码里面有没有用类似转义方法,过滤字符串了。如果有,那么这个系统某个功能,你可以去渗透下了。这个编码漏洞,网上面提的很多,不过很多时候,没有引起开发人员的足够重视,还是在不断的重现!

那么我们如果要注入一个参数,我们该选择什么样的入参参数呢?其实这种转义字符是单引号(‘)、双引号(")、反斜线(\)与 NUL(NULL 字符),我们这些字符往往在程序中有特殊作用,我们只需要在前面加一个在>7F字符,后面接一个%27(‘)、%22(")、%5C(\)、%00(NULL 字符),就可以自己让这4个字符,可以逃脱转义了。

好了,这个漏洞原理及注入过程分析就这些了。我们开发时候,需要注意这个问题,特别是使用GBK编码开发程序,要有这个方面的预备知识,对于自己开发安全的代码会有帮助的。更多的GBK编码,可以看http://doc.chacuo.net/gbk !(这里有很多落在5c中文字符呢)也欢迎讨论!

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索GBK字符编码
gbk字符集、zhs16gbk是什么字符集、gbk字符集下载、linux 安装gbk字符集、oracle字符集zhs16gbk,以便于您获取更多的相关知识。

时间: 2024-09-14 07:30:21

GBK字符编码(字符集)缺陷导致web安全漏洞_其它综合的相关文章

解读HTML:命名空间与字符编码

在做项目的过程中,我们经常会建立各种各样的规范,以方便团队之间更好的合作更好的完成项目:同样我们也经常会听到各种各样的协议,比如Google的IM软件Gtalk使用的开放的XMPP协议,只要其他IM软件也遵循XMPP协议就能与Gtalk使用互通:而互联网上的信息无以计数,这些信息本身是独立存在的,如何将其串联并呈现在用户眼前,就需要使用到HTTP协议. 同样的道理,因为浏览器们各自的内核不同,对于默认样式的渲染也不尽相同,所以就需要一份各浏览器都遵循的规则来保证同一个网页文档在不同浏览器上呈现出

十分钟搞清字符集和字符编码

十分钟搞清字符集和字符编码 本文将简述字符集,字符编码的概念.以及在遭遇乱码时的一些常用诊断技巧 背景:字符集和编码无疑是IT菜鸟甚至是各种大神的头痛问题.当遇到纷繁复杂的字符集,各种火星文和乱码时,问题的定位往往变得非常困难. 本文就将会从原理方面对字符集和编码做个简单的科普介绍,同时也会介绍一些通用的乱码故障定位的方法以方便读者以后能够更从容的定位相关问题. 在正式介绍之前,先做个小申明:如果你希望非常精确的理解各个名词的解释,那么可以查阅wikipedia.本文是博主通过自己理解消化后并转

浅析白盒审计中的字符编码及SQL注入(1)

尽管现在呼吁所 有的程序都使用unicode编码,所有的网站都使用utf-8编码,来一个统一的国际规范.但仍然有很多,包括国内及国外(特别是非英语国家)的一些cms,仍然使用着自己国家的一套编码,比如gbk,作为自己默认的编码类型.也有一些cms为了考虑老用户, 所以出了gbk和utf-8两个版本.498)this.width=498;' onmousewheel = 'javascript:return big(this)' border="0" alt="浅析白盒审计中的

字节、编码、字符、字符集

1.2 字符,字节,字符串 理解编码的关键,是要把字符的概念和字节的概念理解准确.这两个概念容易混淆,我们在此做一下区分:   概念描述 举例 字符 人们使用的记号,抽象意义上的一个符号. '1', '中', 'a', '$', '¥', -- 字节 计算机中存储数据的单元,一个8位的二进制数,是一个很具体的存储空间. 0x01, 0x45, 0xFA, -- ANSI 字符串 在内存中,如果"字符"是以 ANSI 编码形式存在的,一个字符可能使用一个字节或多个字节来表示,那么我们称这

两个不同字符编码的java web网站交互中文字符如何处理乱码?

问题描述 两个不同字符编码的java web网站交互中文字符如何处理乱码? 例如:从GBK编码的网站提交中文字符到UTF-8编码的网站,接收到的中文就是乱码,怎么解决乱码问题? 解决方案 进行编码转换http://www.sharejs.com/codes/java/5422 解决方案二: 在UTF-8的页面先对GBK的字符串进行转码,具体转码方法太多了,就不一一介绍了

中文字符集与字符编码的基础知识

字符是各种文字和符号的总称,包括各国家文字.标点符号.图形符号.数字等.字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集.GB2312字符集.BIG5字符集.GB18030字符集.Unicode字符集等.计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字. 中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基

ORACLE 10G修改字符编码没有超字符集的限制_oracle

ORACLE 10G修改字符编码,不再麻烦,没有超字符集的限制,可以直接修改成自己想要字符串,不过可能之前已经存在数据可能显示的不正确,需要重新再导入 修改方法如下: $sqlplus /nolog SQL>conn / as sysdba; 然后执行以下命令: SQL>STARTUP MOUNT; 如果提示不能共享内存使用命令 ORA-27125: unable to create shared memory segment [oracle@yans1 ~]$ id oracle uid=5

怎么识别zip文件字符编码方式?UTF-8,GBK等等

问题描述 google了好久没有找到,求思路 解决方案 本帖最后由 hero06 于 2014-08-19 15:13:10 编辑解决方案二:编码应该是里面文件的编码吧,单纯zip是没有编码的.解决方案三:引用1楼fangmingshijie的回复: 编码应该是里面文件的编码吧,单纯zip是没有编码的. 在不知道文件编码的情况下zip文件怎么解压缩不报错解决方案四:解压缩报错,是里的文件或者代码有问题,和zip文件本身什么编码没有关联.解决方案五:引用3楼fangmingshijie的回复: 解

mssql 中文字符处理(字符集编码和排序规则)

 mssql 中文字符处理(字符集编码和排序规则) sqlserver中文处理涉及到字符集编码和排序规则,是个非常纠结的问题. sql code --ascii字符 select n,x=cast(n as binary(2)),u=nchar(n) from nums where n between 32 and 126 --unicode中文字符 select n,x=cast(n as binary(2)),u=nchar(n) from nums where n between 1996