学点算法搞安全之HMM(上篇)

学点算法搞安全之HMM(上篇)

 

 

 

 

前言

隐式马尔可夫(HMM),也称韩梅梅,广泛应用于语音识别、文本处理以及网络安全等领域,2009年I CoronaD AriuG Giacinto三位大神关于HMM应用于web安全领域的研究论文,让HMM逐渐被各大安全厂商重视。

本篇重点介绍HMM最常见同时也比较基础的基于url参数异常检测的应用,后继文章将介绍HMM结合NLP技术在XSS、SQL、RCE方面的应用。”多一个公式少一半读者”,所以霍金的《时间简史》和《明朝那些事》一样畅销,我的机器学习系列文章都是尽量少讲概念,多讲例子,希望可以让机器学习被更多人了解和使用。

HMM基础原理

现实世界中有一类问题具有明显的时序性,比如路口红绿灯、连续几天的天气变化,我们说话的上下文,HMM的基础假设就是,一个连续的时间序列事件,它的状态受且仅受它前面的N个事件决定,对应的时间序列可以成为N阶马尔可夫链。

假设今天是否有雾霾只由前天和昨天决定,于是就构成了一个2阶马尔可夫链,若昨天和前天都是晴天,那么今天是晴天概率就是90%。

稍微再复杂点,假设你想知道2000公里外一个城市的雾霾情况,但是你没法直接去当地看到空气情况,手头只有当地风力情况,也就是说空气状态是隐藏的,风力情况是可观察的,需要观察序列推测隐藏序列,由于风力确实对雾霾情况有较大影响,甚至可以假设风力大的情况下90%概率是晴天,所以通过样本学习,确实可以达到从观察序列推测隐藏序列的效果,这就是隐式马尔可夫。

URL参数建模

常见的基于GET请求的XSS、SQL注入、RCE,攻击载荷主要集中在请求参数中,以XSS为例:

/0_1/include/dialog/select_media.php?userid=%3Cscript%3Ealert(1)%3C/script%3E

正常的http请求中参数的取值范围都是确定的,这里说的确定是指可以用字母数字特殊字符来表示,并非说都可以用1-200这种数值范围来确定。以下面的几条日志为例:

/0_1/include/dialog/select_media.php?userid=admin123
/0_1/include/dialog/select_media.php?userid=root
/0_1/include/dialog/select_media.php?userid=maidou0806
/0_1/include/dialog/select_media.php?userid=52maidou
/0_1/include/dialog/select_media.php?userid=wjq_2014
/0_1/include/dialog/select_media.php?userid=mzc-cxy

肉眼观察可以归纳出userid字段的由字母数字和特殊字符’-_’组成,如果你足够强大可以看完上万的正常样本,甚至都可以总结取值范围为[0-9a-zA-Z-_]{4,}。如果有上亿的日志上百万的参数,人工如何完成?这时候机器学习可以发挥作用了。

以uid字段为例,uid的取值作为观察序列,简化期间可以对uid的取值进行泛化,整个模型为3阶HMM,隐藏序列的状态只有三个S1、S2、S3:

[a-zA-Z]泛化为A

[0-9]泛化为N

[\-_]泛化为C

其他字符泛化为T

admin123泛化为AAAAANNN

root泛化为AAAA

wjq_2014泛化为AAAACNNN

隐藏序列就是S1-S4三个状态间循环转化,这个概率称为转移概率矩阵,同时四个状态都以确定的概率,以观察序列中的A、C、N、T四个状态展现,这个转换的概率称为发射概率矩阵。HMM建模过程就是通过学习样本,生成这两个矩阵的过程。生产环境中泛化需谨慎,至少域名、中文等特殊字符需要再单独泛化。

数据处理与特征提取

由于每个域名的每个url的每个参数的范围都可能不一样,有的userid可能是[0-9]{4,},有的可能是[0-9a-zA-Z-_]{3,},所以需要按照不同域名的不同url不同参数分别学习。泛化过程如下:

def etl(str):
vers=[]
for i, c in enumerate(str):
c=c.lower()
if ord(c) >= ord('a') and ord(c) <= ord('z'):
vers.append([ord('A')])
elif ord(c) >= ord('0') and ord(c) <= ord('9'):
vers.append([ord('N')])
else:
vers.append([ord('C')])
return np.array(vers)

友情提示,为了避免中文等字符的干扰,ASCII大于127或者小于32的可以不处理直接跳过。

从weblog中提取url参数,需要解决url编码、参数抽取等恶心问题,还好python有现成的接口:

with open(filename) as f:
for line in f:
#切割参数
result = urlparse.urlparse(line)
# url解码
query=urllib.unquote(result.query)
params = urlparse.parse_qsl(query, True)
for k, v in params:
#k为参数名,v为参数值

友情提示,urlparse.parse_qsl解析url请求切割参数时,遇到’;’会截断,导致获取的参数值缺失’;’后面的内容,这是个大坑,生产环境中一定要注意这个问题。

训练模型

安装hmmlearn

hmmlearn是python下的一个HMM实现,是从scikit-learn独立出来的一个项目,依赖环境如下:

Python >= 2.6

NumPy (tested to work with >=1.9.3)

SciPy (tested to work with >=0.16.0)

scikit-learn >= 0.16

安装命令如下:

pip install -U --user hmmlearn

训练模型

将泛化后的向量X以及对应的长度矩阵X_lens输入即可,需要 X_lens的原因是参数样本的长度可能不一致,所以需要单独输入。

remodel = hmm.GaussianHMM(n_components=3, covariance_type="full", n_iter=100)

remodel.fit(X,X_lens)

训练样本得分为:

score:16 query param:admin123

score:9 query param:root

score:21 query param:maidou0806

score:16 query param:52maidou

score:15 query param:wjq_2014

score:12 query param:mzc-cxy

模型验证

HMM模型完成训练后通常可以解决三大类问题,一类就是输入观察序列获取概率最大的隐藏序列,最典型的应用就是语音解码以及词性标注;一类是输入部分观察序列预测概率最大的下一个值,比如搜索词猜想补齐等;另外一类就是输入观察序列获取概率,从而判断观察序列的合法性。参数异常检测就输入第三种。

我们定义T为阈值,概率低于T的参数识别为异常,通常会把T定义比训练集最小值略大,在此例中可以取10。

with open(filename) as f:
for line in f:
# 切割参数
result = urlparse.urlparse(line)
# url解码
query = urllib.unquote(result.query)
params = urlparse.parse_qsl(query, True)
for k, v in params:
if ischeck(v) and len(v) >=N :
vers = etl(v)
pro = remodel.score(vers)
if pro <= T:
print "PRO:%d V:%s LINE:%s " % (pro,v,line)

以userid=%3Cscript%3Ealert(1)%3C/script%3E为例子,经过解码后为<script>alert(1)</script>,范化后为TAAAAAATAAAAATNTTTAAAAAAT,score为-13945,识别为异常。

总结

本文介绍了HMM在web安全的基础应用,由于仅依赖参数的文本特征进行异常检测,虽然理论上只要白样本足够多确实可以识别几乎所有基于GET请求参数的未知攻击,但是由于缺乏语义层面异常检测,误报率比较高。另外扫描器等对结果的影响很大,如何进一步提升检测能力,请看下篇。

本文来自合作伙伴“阿里聚安全”,发表于2017年05月11日 11:24.

 

时间: 2024-09-20 17:30:41

学点算法搞安全之HMM(上篇)的相关文章

学点算法搞安全之HMM(下篇)

                             学点算法搞安全之HMM(下篇)     前言 上篇我们介绍了HMM的基本原理以及常见的基于参数的异常检测实现,这次我们换个思路,把机器当一个刚入行的白帽子,我们训练他学会XSS的攻击语法,然后再让机器从访问日志中寻找符合攻击语法的疑似攻击日志. 通过词法分割,可以把攻击载荷序列化成观察序列,举例如下: 词集/词袋模型 词集和词袋模型是机器学习中非常常用的一个数据处理模型,它们用于特征化字符串型数据.一般思路是将样本分词后,统计每个词的频率

一步一步写算法(之字符串查找 上篇)

原文:一步一步写算法(之字符串查找 上篇) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com]     字符串运算是我们开发软件的基本功,其中比较常用的功能有字符串长度的求解.字符串的比较.字符串的拷贝.字符串的upper等等.另外一个经常使用但是却被我们忽视的功能就是字符串的查找.word里面有字符串查找.notepad里面有字符串查找.winxp里面也有系统自带的字符串的查找,所以编写属于自己的字符串查找一方面可以提高自己的自信心,另外一

【轻松学排序算法】眼睛直观感受几种常用排序算法(转)

  1 快速排序 介绍: 快速排序是由东尼·霍尔所发展的一种排序算法.在平均状况下,排序 n 个项目要Ο(n log n)次比较.在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见.事实上,快速排序通常明显比其他Ο(n log n) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来,且在大部分真实世界的数据,可以决定设计的选择,减少所需时间的二次方项之可能性. 步骤: 从数列中挑出一个元素,称为 "基准"(pivot), 重新排序数列,所有

如何学算法导论 拜求方法

问题描述 我想看算法导论,但是拿着那么厚厚的一本书我就蒙了想问问高手都怎么看这本书的~~~~ 解决方案 解决方案二:慢慢看解决方案三:要学算法,先学好数据结构解决方案四:要参加ACM么?牛叉!解决方案五:看书┗━━━━━练习解决方案六:下学期就要学习数据结构和算法了--看了一小下下,感觉和DM有很多相似哦~~解决方案七:一边看一边练吧,如果要参加ACM的话要搞的很熟,一般情况的话把基本的数据结构和常用算法搞熟就行了,对将来编写高效率,高质量的代码有好处解决方案八:先学数据结构,然后一边看这本书,

c-请教算法设计这本书。谢谢

问题描述 请教算法设计这本书.谢谢 请教一下各位看过算法设计这本书的前辈.我需要着重了解这本书的什么思想和重要的地方.小弟大一略懂C C++ 看过严版的数据结构和高一凡和数据结构.但是树和图还有算法搞不懂 解决方案 推荐你看<编程珠玑><编程珠玑续编>这两本书,它是非常好的算法入门.而且没有枯燥和长篇大论. 解决方案二: 在电脑上运行运行,多看几遍,回搞懂的. 树和图都是非线性的数据结构.图相对于树来说,是更加抽象和复杂的.可以认为树是图的基础,树是一种更简单意义上的图.在树型结构

机器学习算法集锦:从贝叶斯到深度学习及各自优缺点

选自static.coggle.it 机器之心编译  在我们日常生活中所用到的推荐系统.智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效.本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点. https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY 目录 正则化算法(Regularization Algorithms) 集成算法(Ensemble Algor

如何理解编程中最没用的东西是源代码,最有用的东西是算法和数据结构

问题描述 如何理解编程中最没用的东西是源代码,最有用的东西是算法和数据结构 编程中最没用的东西是源代码,最有用的东西是算法和数据结构 举个简单的算法和数据结构瞧瞧,谢谢 解决方案 这是胡扯,那微软的windows为什么不开源?说源代码没用的,把你的代码都开源啊. 解决方案二: 任何话都有上下文.这里不过是说,对于一个学习编程的人来说,学明白算法再看代码,比在你不懂算法的前提下看人家的代码有效率的多. 好比学习舞蹈,你需要的是学习分解动作,而不是直接模仿人家的姿势. 解决方案三: 算法和数据结构是

程序算法与人生选择

  每年一到要找工作的时候,我就能收到很多人给我发来的邮件,总是问我怎么选择他们的offer,去腾讯还是去豆瓣,去外企还是去国内的企业,去创业还是去考研,来北京还是回老家,该不该去创新工场?该不该去thoughtworks?--等等,等等.今年从7月份到现在,我收到并回复了60多封这样的邮件.我更多帮他们整理思路,帮他们明白自己最想要的是什么.(注:我以后不再回复类似的邮件了). 我深深地发现,对于我国这样从小被父母和老师安排各种事情长大的人,当有一天,父母和老师都跟不上的时候,我们几乎完全不知

【万字总结】图解堆算法、链表、栈与队列(多图预警)

堆算法 什么是堆 堆(heap),是一类特殊的数据结构的统称.它通常被看作一棵树的数组对象.在队列中,调度程序反复提取队列中的第一个作业并运行,因为实际情况中某些时间较短的任务却可能需要等待很长时间才能开始执行,或者某些不短小.但很重要的作业,同样应当拥有优先权.而堆就是为了解决此类问题而设计的数据结构. 二叉堆是一种特殊的堆,二叉堆是完全二叉树或者近似完全二叉树,二叉堆满足堆特性:父节点的键值总是保持固定的序关系于任何一个子节点的键值,且每个节点的左子树和右子树都是一个二叉堆. 当父节点的键值