搞定大数据:AI和机器学习在数据处理与保护上的应用

作为咨询师和顾问,有关各自数据、信息和网络安全事务时,重复“规模”问题挺有难度。不幸的是,上市公司的“外行”总监和管理人员,以及政府高管,倾向于将“规模”(当它属于数据保护的时候)看做不好的东西,甚至是令人恐怖的事物。

原因部分在于,几乎没有什么实用的方法,可以向这些位置上的人解释:某组织的安全运营中心是有可能每天收到百万个“事件”,以及,同时处理和调查这些事件的固有潜在危害,以及,适度保证没有任何一起事件能够溜过安全人员的检测。

大数据分析作为商业工具是很妙的一招,因为我们可以将这些数字转换成“商业利益”。但大数据也是网络安全的需要(比如,使用网络流量、数据、传感器和其他反馈,帮助确定网络正常模式和异常现象),问题在于网络安全数据不太容易被转换成我们能轻易概念化的东西。

那么,我们产生多少大数据呢?我们又该怎样响应这些数据?有几个重要的基本问题必须得到很好的理解,否则更难的问题——我们怎样保护数据?就得不到解答了。

一、我们产生多少数据?

先从一个基本的概念开始:时至今日,数据意味着所有东西,无论是个人的,还是工作上的。我们生活中的方方面面,都已经转换成了这些“0”和“1”的组合。我们如今对数据的依赖是前所未有的,而且肯定还会越来越重,尤其是随着IoT的爆炸式发展。而我们产生的数据——无论好数据、坏数据、垃圾数据,也将持续增长(以惊人的速度),不断吞噬全球网络上的空间(意味着如果你能够控制小小一部分这些数据流,就能发动邪恶的DDoS攻击)。

那么,到底有多少数据以近光速游荡在网络中?2016年6月思科的一份白皮书揭示:全球IP流量已进入“泽字节(ZB:2^70字节)时代”。很好,但ZB是个什么鬼?(下文会有解释)

二、回到基本规律

为解答该问题,我们需要从一些基本规律开始,首先就是:人类是有认知限制的。在试图理解超级大或超级小的数字上,这种限制就特别明显了。我们可以使用计数符号来表示大数字,比如 1 ZB(泽字节)就是 1 x 10^21 字节。但是,这个计数法对你有任何意义吗?

把100万表示成 1 x 10^6 可能对你还有点意义,但那是因为我们对“100万”的实际意义有着更好的理解。可以用美元来概念化“100万”以创建一个参考点:你的年薪是 $50,000,工作20年,只存不花,那就能攒下100万美元了。看下表,可以给你的年薪来个“增幅”:

哪种表示法看起来更爽?$1 x 10^9 还是 $1,000,000,000?好吧,其实都一样的数额,但后面的一串“0”显然看起来舒服多了。而且,更重要的是,看着后一种表示法中的一串“0”,不仅可以帮助人类理解该数字,还能更好地理解这数字代表的意义。为什么呢?因为我们用单词代表数值,而这些数值必须被转换成可感知的某些东西,我们才能在日常生活和网络空间中加以使用,因为规模、符号和认知的限制,该问题变得更难了。

三、概念化ZB

我们知道十亿(10^9)是什么,但我们管10^21叫什么?1,000的7次幂?现在觉得有个称呼好点儿了么?未必!

想象一下我们可以捕捉的一瞬间,就2016年全球IP流量的一个快照吧——1泽字节。我们能把这类比成什么呢?

用下面的表格,我们用一些例子以类比的方式重写了这些数字,概念化一下我们实际处理的东西。

注:本例中用 1.28 ZB (有些数字四舍五入了),出于数学上的方便,完整写出数字时就用十进制值而非二进制了。不用过分纠结细节,至于技术宅,记得:更多的人说话方式是“非技术”的。让你的生活,以及他们的生活,更容易些吧,术语行话和烦人的细节什么的,能避免就避免。

尝试在脑海中具象化下面的数字:

*注:1 万亿米相当于1,000,000,000公里

如果地球到土星的距离对比很难概念化,不妨这么想:花8,000辈子一刻不停用脚走就走到了。如果这都还是难以想象,那就这样:128 GB 之于 1.28 ZB,相当于 20 美金的一张绿票票之于整个美国联邦债务——20万亿美元。于是,假设联邦债务以全球IP流量增长速率增加,到2020年美国总统大选之时,我们要讨论的就是46万亿的债务数字了。

四、概念化网络安全警报过程

那么,既然我们现在对数据产生和流量问题的规模有了更好的理解,我们就要考虑一下怎么管理了。

毫不意外的,被问到最大的安全事件响应挑战时,被调查的网络安全从业者中,36%的人称,“跟上安全警报的规模。”用上面20万亿美元来做类比,可以说,安全人员的任务就是每天从550亿美元中筛选,找出其中多少是合法的,有多少被盗了,有多少是被洗的,有多少是假钞。

FBI局长詹姆斯·科米在2014年 60 Minutes 的采访中对该问题给出了一个非常有用的描述(谈及中国网络攻击时说的):

实际上,他们没那么强。我把他们比作喝醉的盗贼。他们一路踢开大门,撞倒花瓶,再顺走你家电视机。他们仅仅是多劳多得而已。他们的策略似乎是:我们就是时时刻刻无处不在。而他们无法阻挡我们。

关键句是“时时刻刻无处不在”,因为这就是现状。同一份调查中,42%的受访者称自家公司忽略掉了相当大一部分的安全警报,因为他们完全跟不上警报的规模。当然,被警报淹没也存在无心之失的风险:“狼来了”太多次的后遗症。

但或许更令人担忧的数字是:34%的人称,1/4到一半的警报都被无视了,20%称一半到3/4的警报被无视,11%称超过3/4的安全警报被无视!额滴娘喂,这不就是无数大门被踢开,然后放任不管么。

再回到20万亿美元的对比,也就是每天要从550亿美钞中筛选的类比中。如果我们使用上述“忽略”数字,翻译过来就是:警报告诉我们有些不对劲的事情在发生,但我们太疲于应付了,我们不想拨冗查看价值150亿的日产警报。这可真是很多很多钱啊。

很不幸,该问题由来已久。警报忽略似乎与警报本身一样常见,而且如《思科2017年度网络安全报告》中揭示的:不到一半的合法警报切实触发了某种形式的修正,而仅不到1%的严重/关键警报被予以调查。2014年,企业每天处理10,000个警报;2016年,政府部门每天处理50,000个警报;谁知道2017年底随着IoT爆炸式发展我们每天要处理多少警报呢。

不幸的是,尽管有良好建议,比如设置目标、获取正确的信息、巩固整合等等,我们依然疲于奔命,因为我们还是没解决“规模”问题。哦,还有,我们是不是还没提到,有时候网络安全分析师每天只能搞定10个调查?这就是AI和机器学习可以大展拳脚的地方了(也是为什么专注于网络安全问题的AI初创公司,是最好利用我们当前越来越脆弱的状况的原因了)

五、到底意味着什么?

这意味着,我们还有很多工作要做,意味着如果没有AI和机器学习帮我们解决网络安全挑战——感觉上是两码事而实际上就一码事的东西(提示:网络安全+信息安全=数据安全),我们就一条道走到黑了。只要有人能命令并控制仅仅1%的全球IP网络流量,其后果都是灾难性的。

这想法听起来挺难以置信的,但很可能就真是这样,尤其是在想到IoT设备有多不安全(你的洗碗机有口令吗?),以及向移动设备的迁移分分钟都不停脚的时候。这意味着只会有越来越多的人连接本就不安全的设备WiFi网络。

这些困难不会变得更容易解决,特别是当我们持续产生数据,而黑客宣称可以在12小时内突破大多数目标的时候。因此,我们需要尽可能多的工具(比如AI/LM),但我们也需要清醒且坦诚地面对手头处理的对象。网络安全是个技术问题,也是人的问题,但我们人类自身却一直都理解错了这一点。对人类认知限制的认识,是领先对手和恶徒的重要一步。

本文转自d1net(转载)

时间: 2024-10-23 06:25:18

搞定大数据:AI和机器学习在数据处理与保护上的应用的相关文章

【干货】史蕾:大数据征信时代的个人信息保护

嘉宾介绍: 史蕾:1998年毕业于复旦大学国际经济法专业,现柏杨云天(北京)企业咨询有限公司,合伙人.曾就职于纳斯达克B2B上市公司环球资源(NDSDAQ:GSOL)和奇虎360法务部. 密切关注大数据企业和大数据产品的创新性业务实践,为多家大数据公司产品合规分析.用户协议拟定.个人数据保护和隐私政策的制定.股权激励项目提供专项咨询意见. 讲座全文: 各位嘉宾下午好,首先感谢韩院长和清华大数据研究中心给我提供这次机会,也感谢微路演梁总的推荐.今天下午我带来的题目是<大数据征信时代的个人信息保护>

发挥大数据及其产业在推动发展方式转变上的作用

大数据时代的到来,互联网成为基础设施,数据变成重要资源,这不仅意味着海量.多样.快速的数据处理和技术创新,更为重要的是改变了传统要素的组合方式.这种变化客观上要求必须转变传统的经济增长方式,实现创新驱动发展.因此,推动发展方式转变,要树立新发展理念,充分运用我国数据规模优势,实现数据质量.规模和应用水平同步提升,从以下几个方面更好地发挥大数据及其产业在推动发展方式转变上的作用. 大数据产业 一是以大数据产业发展作为动力 以大数据转变发展方式,应大力发展大数据及其产业,建立面向不同行业.不同环节的

引领“大数据技术风暴” 机器学习正当下

Ovum(咨询顾问公司)的分析师Tony Baer分享了他对于云端机器学习工具,物联网驱动流分析和Hadoop的一些观点.这些技术在2016年备受人们关注,2017年这种趋势将会延续. 技术的实际应用前景才是推动技术进步的根本,特别是今年的一些主流技术.Ovum分析师Tony Baer深知这一点,当他在2017年的Ovum report预测大数据发展趋势时,主要依据就是今年的技术应用情况. Baer得出了如下结论,机器学习项目,物联网(IoT)和实时流媒体分析,这些技术在2016获得了广泛关注,

智慧物流该怎么搞?大数据、云计算、4G各领风骚

不久前,商务部电子商务司副巡视员聂林海公开对菜鸟的发展路径提出了质疑.他说,菜鸟网络到处建物流基地建仓储,"因为经不住诱惑,地方政府太重视电子商务,给他非常便宜的地",菜鸟的路"走歪了".在日前举行的2014物流与采购信息化推进大会上,有关部门再次向与会企业和专家提出这样的问题:智慧物流究竟该怎么搞? "圈地派": 促进电商与物流融合发展 马云[微博]对智慧物流给出的答案是:首先得有地,以"万平方米"为单位的土地.在马云的设想

都想搞个大数据 挖掘更多创造数据的渠道更重要

现在大数据这个慨念已经快要"烂大街"了,无论什么企业什么行业都要嚷嚷两句自己的业务有融入大数据,似乎有点流量就是大数据,有点数据就可以搞云,搞人工智能.对于这件事,你怎么看? 大数据的未来 Bernardo Huberman 是全世界最早利用社会化数据进行大数据预测的科学家之一,他们普遍认为,未来大数据的核心叫"社会化大数据",人和人的关系.人和数据的关系都要用数据关联呈现.这就是为什么在美国很多人认为谷歌的价值不如Facebook. 通过对社会化数据的分析,我们能

大数据时代如何进行有效的隐私保护

ZDNet至顶网服务器频道 05月14日 新闻消息:在信息时代,互联网高速发展,数据隐私问题成了人们关注的焦点.据统计,全球互联网用户人数已经接近30亿,相当于世界人口的40% .在这样的时代,任何人都不能在数据隐私问题中置身事外. 大数据时代的隐私安全(来自google.com) 你是否想过,手机里的APP会暴露你是一个怎样的人.比如,你有一辆车,你多半安装了导航的应用:如果你安装了糖尿病家庭医生这款应用,那你或者你的家人多办受到糖尿病的困扰--其实,这就是现在流行的"大数据时代"概

成都建统一大数据中心非涉密政务信息全部上“云”

9月4日,成都市政府常务会议审议通过<成都市政务云建设规划(2017-2020年)>,明确了构建"云.网.端.数"四位一体的政务云平台目标. 成都是最大的公共数据拥有者,成都将推动所有非涉密信息系统全部迁移上"云",实现跨部门.跨区域.跨层级业务系统互联互通和政务数据资源共享开放.9月4日,成都市政府常务会议审议通过<成都市政务云建设规划(2017-2020年)>,明确了构建"云.网.端.数"四位一体的政务云平台目标. 据

大数据和隐私:政府必须选择!(上)

在去年第一次被卷入斯诺登揭秘的争议后,总统奥巴马曾表态他欢迎来一场关于隐私的"对话",虽然这样有点马后炮的意味.你可能对美国的间谍行为嗤之以鼻,但这场民众和联邦政府间的对话已经开始.三个公众研讨会的第一站就在3月10日于麻省理工举行. 研讨会现场,讨论的重点聚焦在隐私的科技层面.发言者首先肯定了数据的价值(多次提及"大数据"这一时髦词), 说明了收集有用数据和保护个人隐私之间的权衡问题,还介绍了可以分析加密数据且同时不会暴露个人信息的最新技术.另外两个研讨会将在其他

大数据先行 传统金融转型需从体制上创新

经过几年发展,互联网金融成为金融行业一股鲜活的力量.同时,行业也意识到,这条鲶鱼不会在大众市场对银行构成威胁.日前,德勤的一份报告也指出,P2P的市场价值高达1800亿美元,但并没有在成本.风险和速度上对借贷进行革命.对于细分市场,P2P可能会由于一定的竞争优势获得利润,但是在大众市场,他们的命运并不掌握在自己的手中. 与互联网金融面临的是生存压力相比,传统的金融机构面临的是强大的转型压力.传统金融机构一方面会面临更加严苛的监管,需要为此承受更高的成本:另一方面,移动互联网下,客户对业务办理速度