安全人工智能应用之我见:时代“风口”的交叉点

编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。本文是阿里云资深算法专家施亮所写,他将在10月的云栖大会上分享安全智能带来的思考和变革(想了解嘉宾以及最新议题信息请关注“云栖大会”公众号)。

施亮

从年初的RSA大会,到前两周刚结束的Blackhat和Defcon,这些大会上一个热议的焦点,就是人工智能和机器学习技术,在安全领域和产品上的应用。

给人的印象是,如果一个安全产品,现在没有运用机器学习技术,都不算是有价值的产品。以人工智能驱动的安全公司也受到了资本的青睐,2017年6月份以来就至少有7家号称运用机器学习技术的安全公司获得新一轮融资,融资总额接近 5 亿美元。

实际上,机器学习技术,在安全领域应用并不是什么新鲜事物。早在10几年前,机器学习和统计分析模型已经应用于垃圾邮件检测、IDS、恶意二进制、URL和DNS分析等领域;特别是垃圾邮件的检测,在十年前,就有非常成熟的商业产品,而机器学习引擎,是其核心检测部分。机器学习能早期应用于垃圾邮件的商业产品,主要原因是垃圾邮件历史上样本的积累足够丰富,而且安全公司愿意投入大量的运营人员进行打标。

当时国外业界一家大型安全公司,邮件的打标团队就有上百人,每日由检测引擎和人工确认的样本,有几十万级之多。邮件用户反馈和灰样本的人工打标,形成了良好的数据闭环,机器学习模型优化迭代很快。而大量精准的样本,和良好的数据闭环,正是机器学习成功应用的基础。

工业界在机器学习安全应用的过往发展史上,有两次大的性能突破性提升,一次是机器学习新技术的应用,一次是数据计算能力的提升。还是以垃圾邮件检测举例,10年前,随机森林RF、GBDT等boosting方法开始流行,这些模型对抗overfitting的能力非常强。

当时国外业界某家大型安全公司内垃圾邮件的机器学习检测模型和各种规则集有上百个,用stacking的方法输出,每个模型或者规则集的贡献权重是由其历史表现决定的。在机器学习的新技术RF、GDBT引入后,最后起统治地位权重dominant weights的,都是使用RF、GBDT等技术的模型,一举可以提升检测精度几个百分点。另一次突破,就是云计算的引入。

最早的机器学习模型特征,都是用大型关系数据库计算的,这家公司当时在全球有6个数据中心,每日回吐的数据量有几百G到T级,昂贵的Oracle系统和数据库query优化专家,也不能很好的解决海量数据query的效率问题,当时有些特征的计算需要1天以上的时间;而有些spam IP的发送时间,是以小时计算的,等到特征产生,spam IP已经转移,拦截效果大打折扣。

2008年,公司内数据挖掘研究小组开始尝试搭建Hadoop,首先用公司计算中心淘汰的废旧机器,搭建了12台服务器的Hadoop集群,使用优化的MapReduce算法,只用了10分钟的时间,就能计算出Oracle大型服务器上一天都计算不出的特征。基于云计算技术的特征工程,训练出的1小时、2小时实效的快速检测模型,将垃圾邮件的拦截效率,又提升了几个百分点。

技术的演进总是类似的。21世纪10年代以来,
机器学习领域兴起的深度学习热潮,推动了图像视频、语音、自然语言处理等方向的突破性进展,深度学习的成功,其实是神经网络模型方法理论加GPU集群计算能力的进步,两者叠加所以进展更加迅猛。最近两年,深度学习开始在安全应用领域落地,例如在恶意二进制检测领域,国外的Deepinstinct和国内的瀚思科技,都有深度学习的商业化产品。

深度学习的优势在于,模型的特征工程,相对不需要太深的安全领域经验,深度学习的输入向量化方法、模型的结构和参数设置,就基本可以决定模型的表现。

相对于其他的分类模型,由于需要深厚安全领域经验支撑的特征工程,特征依赖程度大,模型往往受制于特征提取问题,而深度学习的优势就凸显出来;深度学习的另外一个特点就是匹配复杂度高的模型优势非常明显,这是深度学习模型的多层神经网络组合实现超高非线性适配导致的。当然,深度学习在安全领域的应用也有它的局限性,一是深度学习模型训练需要大量的覆盖范围全面的正负样本,在安全领域,满足这种要求的场景很少;二是深度学习模型适合原子化的数据特征输入,安全领域中,原子化数据特征,在大多数领域,都是比较困难的;三是深度学习是黑盒算法,模型的可解释性很差,对于传统安全运营分析来说,模型的产出很难做类似安全规则的分析和调整。所以深度学习在安全领域的应用,现在还主要集中在恶意二进制检测和WAF等样本比较丰富、输入比较容易原子化的领域。

深度学习加强化学习(RL)的办法在棋牌类的应用,已经超越了人类的水准。

大家都知道AlphaGo的一代和二代,在番棋大战中,连续战胜了人类职业围棋的顶尖棋手;今年1月30日,在宾夕法尼亚州匹兹堡的Rivers赌场,卡耐基梅隆大学(CMU)开发的人工智能系统Libratus战胜4位德州扑克顶级选手,获得最终胜利。

虽然人工智能技术在棋牌领域已经可以随意碾压人类对手,但是在安全领域,人工智能想要在网络攻防对抗上战胜人类黑客,这个道路,从现在的技术看,我认为还比较漫长。原因是不管围棋也好,德扑也罢,虽然变化极多,分别达到10的171次方和10的160次方,但是它们的输赢规则是非常简单,很容易用数学模型描述。只要用合适的机器学习方法,就会在类似的brute force领域取得突破。但是在安全领域,类似的规则描述一般都是极其困难,因为人类黑客的攻击和网络安全专家的防守,并不会遵从现有的固定的一套规则,所以很难用数学模型去描述攻防领域的对抗。目前人工智能对这种创造性很强的领域,效果都不是很好。

一个值得注意的趋势是Generative Adversarial Networks(GANs)的发展,GANs最早由Ian Goodfellow于2014年提出,其基本思想是同时训练两个神经网络,一个网络训练产生混淆攻击样本,一个网络训练识别混淆样本,两个网络互相学习演进。GANs出现后,成功的被用于图片样本的混淆,例如成功的欺骗深度学习引擎,使其将大熊猫图片识别为长臂猿。在安全应用领域,GANs已经被用来产生Malware的混淆样本,今年Blackhat的一篇文章,作者声称自己训练的GANs样本,可以欺骗现在的商业Malware识别引擎,使其误识别率超过70%。

综合这两个进展,今后安全人工智能领域,RL和GANs会得到更广泛的应用,RL主要会用来解决安全领域的样本问题,随机生成或者按照某种规则生成的样本,可以不停的强化模型对某类攻击或者某类正常访问混淆行为的学习,同时提高模型识别的精确率和覆盖率;GANs当前主要用于攻击方对使用机器学习检测引擎的欺骗攻击,从防守方的视角来说,同样可以使用GANs技术,增强自己的检测模型针对混淆黑样本的检测能力;另外,GANs有可能被用于一些攻防规则比较容易用数学模型定义的安全领域,在某些安全领域实现人工智能机器自动攻防的梦想前景。笔者认为,在Malware攻防领域,由于样本的成熟度比较高,安全公司的运营团队成熟,加上这个领域企业的安全需求比较大,所以最有可能取得类似的突破。当前学术界的研究,已经初现Malware自动攻防的端倪。在这个领域笔者认为可以重点关注两个公司,一个是Cylance,一个是Deep Instinct。Cylance广泛使用机器学习技术用于其安全产品,主打的Malware检测产品,大量使用机器学习模型,这个是机器学习广度运用的成功case。 Cylance在去年获得1亿美元的D轮融资。Deep Instinct号称是业界第一家运用深度学习技术进行APT检测的公司,它的Off-the-Shelf Malware检测引擎,在针对阿里云Malware样本上的实测,也取得了不错的成绩。Deep Instinct在上个月刚获得B轮3200万美元的融资。

另外一个快速发展的安全领域将是IoT安全。随着智能设备广泛的应用,IoT在今后几年的发展会更加迅猛,但是由于IoT设备的特性以及历史原因,IoT设备的安全防护一直处于一个低水平。早在2010 年,Stuxnet 蠕虫病毒就针对西门子的监控与数据采集(SCADA)系统进行攻击;去年10月, Mirai恶意软件侵袭了大量存在低级漏洞的智能摄像头、网关、家电等IoT设备,并利用它们作为肉鸡,攻陷了北美地区的主要DNS服务器,使得北美基于DNS的大规模的互联网访问,中断了数个小时,造成很大损失。今后IoT设备,天然结合云端的设备数据上传,会是机器学习发挥能力的绝佳战场。这个领域可以关注一些初创公司例如Bayshore Networks,这家公司在今年3月取得440万美元的A轮融资。

安全领域应用场景对机器学习算法的应用有几个特殊的要求,一是对误报率的要求非常高。误报的含义就是将正常的用户行为解读为攻击。最近几天Facebook颁了一个十万美金的安全奖,给CMU的一个鱼叉钓鱼攻击检测研究团队,主要技术因素就是这个检测方法的误报率非常低。安全领域的问题,如果误报高,就算告警结果涵盖所有的攻击,实际的结果仍然不可用,因为没有哪家公司可以提供庞大数量的安全工程师,去分析过滤机器学习的告警,遑论安全工程师的水平也会参差不齐,会有人工误差。二是安全领域的问题,往往没有ground truth,也有人喜欢说没有上帝视角。也就是说,其实没有人知道某种异常行为,到底是不是攻击,这个事情听起来很沮丧,但是这个确实是现实,一些诡异和精心设计的攻击,很难用常规的办法去确认。造成机器学习模型,在这种场景下,没有反馈,很难形成数据闭环去不断优化;三是在安全领域,大多数的问题,没有样本或者极少的样本,导致很难建立相对比较精准的监督学习模型,无监督学习的模型,又会造成问题一中误报率高的问题。综上所诉,这三个问题互相交织作用,造成机器学习在安全领域的应用一直比较艰难。

近年来云计算的发展,为解决上述难题,提供了一个良好的环境;云平台本身每天面对的攻击体量和频率都远远大于线下环境,比如,阿里云平台每天防御的体量为16亿次攻击,其中成功防御的DDoS攻击占全网一半以上,对攻击数据的甄别和保存,形成了大量和多样性的攻击样本沉淀;

另外,云计算平台本身提供了海量数据的计算能力,对人工智能大数据模型提供了平台级的计算支持。在阿里云, 我们依托阿里云计算平台和大数据的优势、国内顶尖的安全和机器学习算法人才, 针对上述难题,找寻和攻克解决这些问题的答案。这也是我认为基于云的安全算法,大有可为的原因。

针对安全告警误报的问题,我们运用较长历史的大数据流量,使用统计学习模型+深度学习模型,学习人、设备等的正常行为,如果现有安全告警被这些模型分辨为历史上出现过的正常访问行为,就可以判断为误报,使用这种方法,我们可以将目前主机入侵的日告警量,降低85%以上,并且全部保留对阿里云真正有威胁的攻击告警。

针对第二个问题,我们从工程上运用灰度测试的技巧,及时比对模型和模型之间,模型和安全规则之间的误差,从有限的用户反馈,来最大限度的达到拦截攻击流量,同时保留正常用户的访问不受干扰。为了解决上述第三个问题中提到的没有样本或者样本少的问题,除了做好数据打标的留存工作,我们还使用了深度学习模型去生成样本,再用当前的机器学习检测模型做样本的甄别, 生成的混淆样本可以极大的增强现有模型的鲁棒性[1],这里我们引入了一个强化学习样本生成的思想,使用机器学习模型自身,去加强机器学习模型自己。

阿里云安全的数据智能团队,主要运用机器学习技术,支持阿里云平台自身的安全,也让安全服务变得更智能、高效。我们希望将安全传统的防守视角,转变为攻守兼备。

安全是网络安全和人工智能时代“风口”的交叉点。我从机器学习算法出身,在安全领域游荡了9年,研究风控、机器学习和算法研发,但至今仍深感对这两个领域的了解不足。对于安全算法的未来之星们,我的建议是:均衡发展,同时培养和积累两个领域的能力和经验,并且不断付诸于实践,才是在这个行业里成就自己梦想的关键突破口。

据我所了解,每年国内的安全人才缺口在10万级,从事安全事业的人才,又掌握机器学习算法武器的,少之又少。于我来说,交叉型人才最聚集的地方,除了国内外顶尖的安全公司和人工智能厂商之外,还有各大高校,这也是为什么,阿里云每年举办安全算法大赛,从行业和高校,寻找“跨界”的参赛队伍。在切磋与合作中,每年1000多位来自算法或者安全领域的高手,取长补短,激发出新的灵感和技术方向。不仅如此,安全算法虽然目前“稀缺”,但在未来,必然会成为云安全的必备武器。当有一天,100%的企业都安家云上,安全一定不是仅仅用人力可以解决的问题,每个机器大脑背后的智慧,是推动云安全前进的关键。

一切技术发展的背后,人才是最珍贵的源泉。我们当下的所思、所想和所为,会在一次又一次的技术变革中得到印证。而我们现在要做的,就是开始。

云栖大会购票通道请戳这里!。


1鲁棒是Robust的音译,也就是健壮和强壮的意思。 它是在异常和危险情况下系统生存的关键。 比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。 所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。

云栖大会报道:

专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费

专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄

专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流

专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下

专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远

专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索

云栖大会变迁史(2009-2017)
图说历届云栖大会精彩内容(长图鉴赏)

时间: 2024-08-22 14:27:35

安全人工智能应用之我见:时代“风口”的交叉点的相关文章

软硬件结合,让人工智能计算进入民主化时代

 [51CTO.com原创稿件]在这个火热的七月里,芯片行业老大哥英特尔动作不断.先是发布了新一代的至强可扩展处理器,紧接着对外公布了基于Apache Spark的分布式开源深度学习框架BigDL的新版本,并计划于近期正式发布.不久前,笔者曾在北京采访了英特尔公司软件与服务事业部副总裁,系统技术和优化部门大数据技术总监马子雅女士,就深度学习四大痛点与BigDL解决之道进行了交流与沟通.近期,笔者再次跟随英特尔转战上海,来到位上海紫竹科学园区的英特尔亚太研发有限公司,对英特尔公司软件与服务事业部副

第四范式首席科学家杨强教授:人工智能的下一个技术风口与商业风口

作为华人界首个国际人工智能协会AAAI Fellow.至今为止唯一的AAAI 华人执委,以及IEEE Fellow.AAAS Fellow.IAPR Fellow,杨强教授在专注学术研究的同时,也更关注如何让人工智能技术落地转化为生产力的问题. 作为第四范式首席科学家.范式大学的导师,杨强教授近日在第四范式公司内部进行了一场主题为"人工智能的下一个三年"的培训,深入浅出地分享了自己在人工智能产业推广上的经验,并预判了人工智能即将爆发的技术风口与商业风口.此前,杨强教授与第四范式曾提出人

人工智能开启客户服务新时代

摘要:本文的整理自2017云栖大会-上海峰会上阿里云飞天六部许玲的分享讲义,阿里云智能化+自动化人工智能服务有着行业领先的底层架构和多年的服务沉淀,强大的人工智能团队和专利技术及大数据行业多年深耕细作丰富经验. 在2017云栖大会-上海峰会上,阿里云飞天六部许玲做了题为<人工智能开启客户服务新时代>的分享.客户服务面临着业务发展快,服务部门必须快速更新业务知识与技能用户在增长,服务部门必须提升服务效率,在纯人工服务的企业,面临巨大的人力成本和管理成本压力多种服务渠道的需求,保证服务质量和SOP

时代风口下,东软集团软件业务怎么转型?

从1991年到2016年,东软集团从初创时的3人发展到如今的2万多人;从2间教室,到如今中国8个区域总部.10个研发基地,海外8个子公司.从系统集成.解决方案.服务外包.产品,到今天的推动商业模式的创新.推动互联网+一步步的发展.今天,东软的人口数据库管理系统为中国13亿人提供人口数据服务,东软为4亿人提供社会保险服务与支持系统,东软的电力营销系统为4亿人支付电费提供服务,东软的证券交易监察系统为7000万户股民提供证券交易服务- 一系列数据变化的背后,是东软集团25年来对于技术.业务.管理与商

中国人工智能学会通讯——拥抱人工智能2.0新时代 1.1 人工智能 1.0 已基本成熟

人工智能在经历了60年的发展之后,终于从婴儿发育成幼儿,开始显现出自身远大的发展前景.尤其是Watson和AlphaGo的出现,使得业内人士大喜过望.人类不仅解放了肉体,可以不必身临其境地去从事繁重.危险的体力劳动,而且还初步解放了思维,可以用机器来替代人们进行简单的脑力劳动.按照这样的趋势发展下去,人工智能迟早能够取代人类,能够独立完成人类所能做的任何事情,甚至会超过最优秀的人类.为此,各国纷纷出台相关政策,抢抓人工智能时代的主导权. 1.1 人工智能 1.0 已基本成熟 之所以说人工智能已经

中国人工智能学会通讯——AI时代的若干伦理问题及策略 1.2 算法歧视、隐私、安全/责任、机器人权利等AI伦理问题日益浮现

1.2 算法歧视.隐私.安全/责任.机器人权利等AI伦理问题日益浮现 所以我们看到,AI确实是一场正在发生的社会变革,潜在的好处是巨大的.但是,我们也不能忽视AI背后的伦理问题.我今天主要讲四个方面的伦理问题. 第一个是算法歧视.可能人们会说,算法是一种数学表达,很客观的,不像人类那样有各种偏见.情绪,容易受外部因素影响,怎么会产生歧视?之前的一些研究表明,法官在饿着肚子时,对犯罪嫌疑人是比较严厉的,判刑会比较重,所以人们常说,正义取决于法官有没有吃早餐.但是,算法也正在带来类似的歧视问题.比如

人工智能的后泡沫时代就要来了,你还要进场吗?

人工智能的泡沫要破了? 根据2017年上半年猎云网发布的<2017人工智能投融资白皮书>,2016年上半年,AI 市场还处于活跃期,并且呈现持续走高的趋势.在4月,全国有高达39起投融资案例,然而到了下半年,这一数字开始慢慢回落.直到今年年初,投资数量已经降到了个位数. 换句话说,金主们给这些瞄准未来的人工智能公司投钱的时候,好像没有从前干脆了. 数量下降就真的意味着这个市场失去活力了吗?其实不然.早前的 AI 创业公司还处在草创期,融资也还处于金额较小的天使轮和 A 轮.进入在2016年下半

中国人工智能学会通讯——“智能+”时代的金融大数据应用

今天这个论坛是智能金融论坛,我们理解智能金融其实就是人工智能的金融--AI+金融,我今天演讲的题目就是智能时代下的金融大数据应用.我4月底在这个会场全球移动互联网大会有一个讲话,时间比较短15分钟,今天很感谢柳博士给了我30分钟,我要好好利用这30分钟,把我们过去平安做的工作和我们团队做的工作给大家做一点汇报,后面的交流时间请大家多多提意见. 现在互联网+谈的是比较少的,主要是模式的创新.去年从阿尔法狗开始到今年1年多时间,大家谈的更多的是人工智能和智能+.我们更多要思考的,人工智能不是一个新的

增设大数据专业追上时代“风口”

日前,教育部公布了高校新增专业名单,有32所高校成为第二批成功申请"数据科学与大数据技术"本科新专业的高校.加上此前第一批成功申请该专业的北京大学.对外经济贸易大学和中南大学,已共有35所高校成功申请大数据专业. 大数据专业的产生背景,跟快速发展的互联网产业直接相关,正如报道中所言,"站在互联网风口上的大数据,直接催热了大学里的大数据专业".根据麦肯锡咨询公司出具的一份分析报告,预计到2018年,大数据或数据工作者的岗位需求将激增,其中大数据科学家的缺口在14万到1