谢谢大家那么冷从四面八方的赶过来。另外,也是诚惶诚恐,刚才知道有很多清华非常著名的教授来参加,让我觉得压力山大。今天我只是一个非常个人的对大数据的一个认识。这十个前沿不代表是一个非常准确的定义。大家回去不用把这个分类作为自己研究的一个参考。而且今天我这个演讲聚焦在技术上,别讲太多大数据的理念、思维,甚至是应用技术都不讲了。所以今天我主要是讲核心的技术。也许大家听起来会有一点枯燥,现在说干货是好事,但是有点太干了。涉及到的名词和特定的技术领域,这不代表我个人都很懂。在很多地方我都是一知半解。我希望把这个作为交互式的,大家有问题可以随时打断我。
首先我们公司要求要有一些免责方面的要求,个人也是免责,今天讲的是我个人的认识。
现在说大数据,我希望大家做研究的有一种思维方式,在美国有一个未来研究院的发起人,他叫阿马拉,他提到一个艾莫拉法则,人们往往会高估技术的短期影响力,而低估技术的长期影响力。技术的长期影响力代表着技术的积累效应。我们现在常常用指数效应来说明,在现在这个指数时代,指数效应或者指数的颠覆性效应是一种新的常态。我们经常在大数据的领域听说,有人说我们现在的数据量非常大,最近两年产生的数据量相当于人类历史上产生的数据量总和的90%。有人说,最近一天产生的数据量相当于人类文明开始到2003年这数万年人类产生数据量的总和。IDC说,现在人类产生的数据总量每两年翻一番。所有这些都说了一个事情:指数的效应。
看一下这个曲线,在经历很长时间的缓慢增长之后,突然在一个点它拐头向上,产生了爆炸式的增长。在这个时间点,T如果是X的话,T+1就是X的平方。当X很大的时候,它在任何一个周期都会把前一个周期远远的抛离在深厚。
大家一定听过棋盘和麦粒的故事,8乘8的棋格,第一格放1粒,第二格放2粒,到后面积累就会爆发式的增长,到一个国家承受不了的程度。
摩尔定律,这张泛黄的纸片是当时英特尔的联合创始人之一戈登·摩尔(Gordon Moore)写下的纸片,他推动了现在社会的飞轮效应。每过18个月,晶体管数翻一番,它进一步带来了一系列指数式的链式反应。处理器的性能也翻一番,成本折半,功耗折半。同时,在一些临近的领域也触发了指数效应。比如说以氧化铁为主要承载物的存储,也有类似的指数效应。比如说主干网的带宽甚至每八个月都会翻一番。甚至是每美元能够买到的数码相机的像素的数目也呈现了指数级的效应。所有这些带来了数据的摩尔定律。
所以我一直一个论点是,在这个社会,大数据是我们的蛋白质。蛋白质是我们生命活动的基础,也是我们生命活动主要承载者,它对于我们这样一个社会实在是太重要了。我们形容数据是资产、是原油、是原材料、是货币,无论哪种形容的方法都不过分。因为它关系到70亿人数据化的生存,以及2020年500亿个互联设备的感知、互联和智能。所有这些乘起来产生了2020年35个ZB的数据。在2020年一年会产生35个ZB的数据。一个ZB相当于一千个EB,谷歌已经把互联网吸纳在他的数据存储中了。他的数据的存储量差不多在个位数的EB或者几十个EB之间。2020年一年就会产生一千个谷歌的数据。这是一个多大的量?当然我们不能只是强调数据量多大。而是说在这个数据里面我们能够提取出什么样的意义来。提取的过程就是这样一个函数,F(数据,T)。
这么大量的数据给我们带来了什么样的挑战。全集大于采样。传统的数据分析是能够采样的,他能够抓到一定的统计的数据特征。但是大数据要求的是倾听每一个个体的声音。他不希望把一些个体的东西变成噪声过滤掉。所以这是带来的第一个挑战。
第二个挑战是实时性。数据的价值是跟它的寿命成反比。当数据刚刚产生的时候,它的价值是最大的,尤其是个性化的价值是最大的。随着时间的推移,它会蜕变到只有几何的价值。我们需要实时处理,并且把这个实时的洞察跟我们长期积累下来的知识进行融合,变成之前或万物皆明的全时的智慧,这是第二个挑战。
第三个挑战是F,我们的分析方法是不是能够做到见微,又能够做到知著。同时,也能够理解每一个社会运行的规律。这对F要求非常高。第四,他反映了人与机器的关系,或者人与工具的关系。我们说希望数据能够说人话,数据的价值是人能够理解,并且能够执行的。
很多大数据的技术基本上是为了解决这四个问题。我今天要讲的十个技术前沿,基本上都落到刚才这四个需求里。但是我又把它分成三大类:
第一大类,解决数据的问题。
第二大类,解决大量的数据前提下,如何能够实时的计算问题。
第三大类,我的分析怎么能够提供更好的、更精确的价值的问题。
所以我下面会根据这十个技术前沿,跟大家介绍一下现在我们领先的大数据的科研单位以及企业都在做什么样的事情。
第一,膨胀的宇宙。
IDC创造一个名词叫做DATA UNIVERS——数据宇宙。它的膨胀速度是非常快的。现在我们的硬盘是TB,到PB到EB到ZB,甚至再到下一步DBMS。在这一条时间线上面,技术的演进,最早当然是TB,就是传统的关系型数据库以及在其基础上延伸出来的数据仓库。它基本上是能够控制住TB级的数据。随着数据量的增大,MPP这样一种技术使得它的数据库技术进一步的演进到接近于PB的规模。但是它还是碰到了瓶颈,于是,NoSQL的数据库就出现了,NoSQL的数据库有两个特点:第一,无模式的。第二,它放弃了对于精确事物特性的追求,放弃了原子性、隔离等等方面的需求。这样使得它的扩展性能够得到提升。所以大家可以看到沿着这条路线,很快使得我们对于数据的存储能力达到了PB的级别。
在这条路线延续的同时,文件系统也在延续,文件系统对于非结构化的数据具有更好的存储能力。所以DFS能够处理比NoSQL更大的数据量。有一些NoSQL的数据就是建立在DFS的基础上。这时候有一部分人就想NoSQL损失了很多的特性,但是在商业场景里面,我从帐号里面取了钱,我要保证这笔交易是符合事物特性的,不会存在我取了一百块钱,但是在数据库里面显示那一百块钱还在里面。怎么在更大量数据的基础上来实现这种事物特性呢?于是就出现了NewSQL,NewSQL一方面处理的数据量比传统的数据库更大;另一方面,它又能够满足事务的特性。当然NoSQL还在进一步的演进,从几十个PB的规模,进一步演进到EB的规模,进一步出现Globally Distributed DB的规模,百万台服务器的规模。谷歌的Spanner就是一个典型的distributed DB。它为了达到事务特性,它需要部署很多新的技术,比如说利用GPS进行全球的时钟同步。
另外一个演进是Array DBMS,很多计算是现行函数,它跟关系函数很不一样。Array DBMS就应运而正了,最主流的是SciDB,它就是针对科学计算、针对现行计数的数据。这就是一个主流演进的图谱,但是它还没有结束。在文件系统方面,因为纯磁盘的访问使得它有吞吐量的瓶颈。于是出现了利用RAM做缓存的现象。比如说最著名的HDFS就有了内存、缓存的扩展。同时,也出新了in Memory的FS,它把文件系统放到大的内存里面。而且,现在主流的大数据的处理都是基于JAVA。JAVA内存回收是通过一个处理器。对于几百个EB的信息,垃圾回收器不是特别的有效。于是又出现了堆外面的内存,它在堆外面又放了大量的数据。
另外一个是Erasure Coding,它最早在通讯领域,是因为无线的信道有很大的出错的可能性。它通过编码机制能够使得我这个传输是能够容错,甚至是纠错的。现在它也被用到了大数据上面。大家如果熟悉Hadoop的话,就知道在DFS上面曾经出现了几种时限,每一种都是因为种种原因并没有得到推广。最近英特尔跟Cloudera一起,推了一种新的Erasure Coding。
新的存储的介质又出现了,现在是发展最快的一直,因为Flash的吞吐量、延迟都要比机械的氧化铁的硬盘更快。
DRAM Storage也出现了,就是我所有的数据都存在DRAM里面,它进一步提升了吞吐量,减少了延迟。但是DRAM有一个问题,DRAM是易失的,一掉电这个数据就不存在了。你为了让他能够起到存储的作用,就必须要想办法,比如说通过冗余的方法在不同节点里面都存同一个数据,这样一台机器宕掉了,它的数据还能够存在。当你的数据都留在内存里面以后,不同节点之间数据的传输就变得非常重要。传统的数据传输是通过网卡、TCPIP的协议栈,这个效率是非常低的。在高性能计算里面,出现了RDMA,高性能计算里面都是非常高大上的,这些技术非常昂贵,本身的扩展性也不够。所以现在基于大数据的高扩展性的RDMA也是现在研究的热点。
所以这几种新的介质放在一起就出现了Heterogeneous Storage,你能够根据数据访问的频率,能够智能的把数据放在不同的介质上面。比如说访问最频繁的就放在DRAM或者是Flash,不太频繁的就放在传统的磁盘里。这做的好与不好关系非常大。谷歌有一个工作,他能够保证他只把1%的数据放在闪存里面,但是这1%的数据的闪存接受了28%的数据的访问。如果你的数据分布算法做的好的话,你可以以非常低的成本提供更大的吞吐量。
未来,会出现Memory,它的性能跟DRAM相差不多,但是它的容量更大,它不会丢失,如果数据里面的内存不会丢失,整个系统的软件就有可能会发生一些革命性的变化。比如说你不用再做序列化和反序列化了。你甚至不用文件了。因为原来用文件是因为我在磁盘里的数据的状态跟内存里面数据状态是不一样了。但是你现在在这个状态里面,你休息的状态跟被使用的状态是一样的。你不需要从文件里面把数据读出来,转化成为计算的格式。所以non-volatile的出现会对大数据的软件化出现革命性的变化。
non-volatile还有一种选择是磁带机。它还在被大量的使用。谷歌是全世界磁带系统最大的买家。因为他要备份他的几十个EB的数据。他大量的数据都是在磁带机里面,磁带本身的介质也在变化,最先出现的钡铁的形式,它的稳定性更好。
第一部分讲的是怎么应对疾速增长的数据量。为了提升吞吐量、降低延迟采取的各种各样的方法。
第二,巴别之难。
圣经里有一个巴别塔,最早人类都是同一种,讲的语言也都是一样的。上帝觉得你们太舒服了。他说人类要造一个巴别塔,他让你们说不同的语言,让你们沟通产生困难,让你们分布到不同的地方去。数据也面临同样的问题,数据并不是在同一个地方说同一种语言。
数据能够相互说话,但是他们用不同的语言。他们的格式可能是不一样的,他们的语意不一样,他们的度量衡不一样。数据可能是不完备的,甚至是相互之间矛盾,这样导致了一个问题,我们没有办法利用更多的数据来产生更好的价值。为了实现这个一定要做一件事情叫Data Curation,数据的治理,数据质量的提升。Data Curation里面最有提升价值的是Data Wrangling。在计算历史上有很多hard的问题,有一种NP—hard,还有一个叫DB—hard,它的意思是你在这个地方输入地址是这样写的,在另外一个地方输入地址的写法不一样,事实上他们代表的是同样一个东西。Data Wrangling就是希望把数据的逻辑打破。
迈克是一个数据界的大师,他做这个东西我们很相信是代表着技术发展的方向,他根据某些条件查询出来几个选项,我们怎么知道他们这几个选项是代表着同一个东西呢?他开发了一种叫Data timer的东西,他点到不同的里面,发现不同的线索,首先这些线索的网站是不一样的,他发现这些数据不是一样的数据。同时,他发现的地址又是一样的,都是这样一个地方。第一步他要发现这两个是同样的地址,但是他又发现联系的电话是不一样的。这对我们带来了很多的困扰。
他又去对数据进一步的发掘,发现数据描述的主体有很多特征,在这些特征上面,他又发现一些相似的特性。他通过这样一种证据不断的叠加,他来发现数据与数据之间的关联性。
怎么通过自动化的学习方式,怎么能够发现数据中的规律,尤其是文本这样一种典型的非结构化数据,怎么能够发现规律。其次怎么能够发现重要的实体。本体论里面一个重要的概念,反应我们一个描述对象的属性的单位就是entity,我们怎么找到这些entity,这一切是希望能够通过自动化的学习来完成。而且希望能够从半结构化或者多结构化的数据进一步推展到完全非结构化的数据。
你提炼出来的这些数据和原数据,需要有一种更好的组织方式。现在一个冉冉升起的组织的工具叫做Apache的UIMA。如果这个大家比较陌生,大家一定听说过IBM的Watson。前两年在美国的一个类似于开心辞典的节目,一个计算机战胜了两个非常高智商的人。在它的信息的组织就是通过Apache的UIMA来组织,它的组织能够使后期的分析最简化。这个是解决巴别之难的现在的主要研究工作。
第三,数据有价。
数据是比特,比特是可以低成本无限的复制,一旦一个数据或者一个东西失去了稀缺性以后,它的价值就是零了。所以,数据有价首先要保证你要定一些数据的权利。在这样一些权利的指导下,你要保证数据的安全。大数据的安全本身又分为大数据系统的安全、数据本身的安全,以及数据使用当中的安全。最后是数据怎么来进行定价。我在第三个前沿里面希望能够给大家分析一下这一块主要的研究成果。
第一,数据权利的定义。数据我认为有五个基本权利:第一,拥有权,这个数据是属于谁的,这个拥有权是不含糊的。就像我们现在拥有的其他的物理的财产一样,拥有权可能会出现变更,比如说离婚了,这个权利怎么分割,人死了怎么来传承。这里面都涉及到数据拥有权的研究。第二,数据隐私权,我什么东西不能给你看。第三,数据许可权,我什么东西可以给你看,今天给你看了明天不能给你看。第四,数据审批权,我按照这样一个规范许可给你以后,需要有一种机制审计,确保你是按照这种规范、按照这种许可的条例使用我的数据。第五,数据分红权,对于新产品的数据价值,我有没有可能得到分红?这是我定义的数据几种权利。
下面就是数据的安全问题,首先我怎么保证一个大数据的系统安全,比如说Hadoop,慢慢加入了基于Kerberos的用户和服务鉴权。HDFS文件和数据块权限控制。未来是高度分布、去中心化场景下的安全,数据使用实体之间并不需要存在信任。不存在单点可控制的机制。最典型的就是类似于比特币和Ripple的获取。比如说block chain,它是对数据最价值的获取。
对数据的安全,第一个方法是加密,Hadoop新的功能就是可以对数据进行加密。第二,访问控制。Apache Accumulo,它也是一个开源数据库。在Hbase里面也在加入类似访问控制的安全。
动态数据的安全,这个数据只有你能访问,我不能访问。这种静态控制不能防止一种攻击,你有权访问了,你把数据取出来了又给了我。因为他不存在一种动态的进行跟踪的机制。所以现在有对数据的移动进行动态的审计。
个人对数据的控制。现在我们个人对自己的数据有了一定的控制权限,比如说Do Not Track,现在浏览器都有这种功能,如果你不把它打开,各种各样的互联网服务商就可以根据你的Cookie不断的跟踪你,你在京东上看中一双鞋,你到淘宝上它就会一直跟踪你。你打开Do Not Track,它就不能跟踪你了。现在各种不同的AP可以跟踪你,你一旦关闭“跟踪”选项,他就不能跟踪你。个人数据的删除你可以要求一些互联网的服务提供商把你的数据删掉。这是MIT做的,他以隐私的方式向第三方提供数据,并且获得价值。
数据安全中现在最热的一个研究领域,叫做数据脱敏。尤其是开放数据,我如果要把数据开放出去的话,我怎么能够保证这个数据里面不会把一些个人的隐私信息泄露出来,在历史上很多的数据开放就导致了这样的问题。美国的国会,有人把他的搜索数据跟美国选举公开信息进行了匹配,使得他个人的隐私被暴露了出来。去标识符往往是不彻底的,这里有一个准标识符,对于个人来说,姓名是标识符,准标识符是性别、出生年月、邮编,在美国做的研究,只要根据这三个信息,准标识符的信息,有90%几的可能可以把个人确定下来。你要防止这样的隐私供给。
一个机构他开放了一些数据,虽然是匿名的,但是有人把这个数据跟国际的移动的数据库做了匹配,把一些有同性恋倾向的人找了出来。这就是多数据源的攻击。
还有一种基于统计的攻击。如果我能够知道一个人的活动规律,同时我知道他一天在四个不同的时间点,出现在不同的基站周围,我有95%的可能性把他确定下来,所以要防止这些隐私攻击,现在推出了很多的技术,比如说K-anonymity,当你的准标识符都相同的话,这个数据组里面我还是至少有k个值,不是只有一个值,如果只有一个值,你马上把这个人确定下来。希望能够有K个值。L-diversity中,他是希望K个数据中至少有L个不同的值。第一种匿名的机制只保证有K个数据,但是他还是有类似性。左翼进一步要求这K个数据有L个不同的值。T-Closennss进一步保护你的隐私性。Differential privacy会人为的插入一些噪声,但是又不干扰你进行分析,他在插入噪声的同时又不影响这些噪声的分析,这是插分隐私。当然这里面要注意隐私的安全性和数据的可用性。因为你插入的噪声太多了,数据本身的价值下降。
第三种安全是数据使用的安全,我们希望数据使用能够做到可用但不可见,相交但不相识。我希望几个人的数据凑在一起产生更大的价值。但是我又不希望你能看到我的数据,或者我看到你的数据。这里面有几种技术,一种是同态加密技术,CsyptDB/Moomi。另外一种是基于加密协议的多方安全计算。两个百万富翁,他要比谁更有钱,但是谁都不愿意说出自己有多少钱,这就是一种保护隐私的多方安全计算。第三种是基于可信计算环境的多方安全计算。可信计算环境需要一些硬件的支持。我这些列举的TXT、TPM、VT—d,都是英特尔现在平台上的,他能够保证你的数据是可信的,环境是隔离的。但是这个数据在磁盘里面是加密的,但是它被放在内存里面,就变成明文了,虽然我们有VT这样一种技术保证它的数据是隔离的,但是还是存在着被攻击的可能性。下一步技术叫SGX,它的攻击的可能性也没有了,因为在内存里面也是密文,一直到CPU里面进行计算的时候,才变成明文。
另外一个审计和定价的问题。系统安全了,数据安全了,使用安全了,我可能要进行一个审计。所谓审计就是,我给出一个数据使用的条款,你是不是按照这样一个条款去使用我的数据了。这里第一步要做的就是你把这个条款形式化,你要通过一种specification language来描述,他要形式化,形式化的目的就是希望能够让非专业人员来书写这些条款。比如说这个企业法务人员,企业的数据要给另外一个企业用的话,这个法务人员要写出来这些条款。根据使用规范,对数据的使用要进行审计,可能是静态的或者是动态的。
定价,任何一个财产的定价,一个是根据效用,第二个是稀缺性。所谓效用就是你这个数据被使用的多频繁,他对结果的影响有多大,根据这样一种效果,我来判断各方数据的贡献,从而进行定价。稀缺性是根据数据价值的密度以及历史的价格的稀缺性进行定价。刚才的研究我们做了一个技术叫数据咖啡馆。咖啡馆是16世纪在英国出现的,它就是让三教九流不同的人能够聚在一起进行思想的碰撞,产生新的价值。数据咖啡馆就是希望能够让不同方的数据碰在一起,现在有很多垂直的电商,他们都是经营不同的业务。他们对于客户的认识是非常片面的,不精确的。比如说一家电商是卖衣服鞋帽的,另外一家是卖化妆品的,他们没有办法对一个客户获得像淘宝这样对个人精确的刻划。所以他们需要把精确的数据碰在一起,产生对客户全面的画像。在这里面还有不同的场景,比如说一个大电商,一个小电商,小电商肯定是缺乏数据的。他可以通过一种机器学习的方式来帮助这家小电商迅速的把他的对客户的认识建立起来。还有一种情况是这种小电商的数据比较少,标记数据比较少会出现机器学习中冷启动的问题,他可以利用另外一家电商的数据把他弄起来。
还有一个案例是癌症的。癌症是一个长尾病变,过去五十年癌症的治愈率只提升了8%,在所有的疑难杂症中是提升最少的,它的很大的原因是研究不同机构癌症的基因组样本非常的有限。如果说能够通过数据咖啡馆把这些数据汇聚到一起,我们一定能够加速癌症研究的技术突破。我们现在跟美国几家研究机构有一个愿景,在2020年前我们希望能够达到这样一个目标。在一天之内一个癌症患者来到医院能够完成全基因组测序,同时分析出致癌的基因,并且给出个性化的治疗方案。这有赖于疾病的治疗。这就是我们刚才说的,数据相逢但不相识。数据的价值一定是根据使用来决定的,没有使用不应该有数据的买卖,你先使用再定价再买卖。我们专门做了一个数据的定价机制。底层是多方安全技术。我们希望未来一个场景是这样的:企业的数据拥有方是一方,但是他没有分析能力,分析师又是一方。中间我们提供一个数据咖啡馆的云。这些分析师写了分析的代码,分析代码提交到云里面,云首先对代码做本地的分析,他通过一个静态的检查器,这个静态检查器要从数据的提供方那边获得隐私的条款。他要检查这个代码是不是符合这个隐私条款的约定。只有符合了以后,他再把这个代码送到数据提供方的那边进行数据的分析。同时,把阶段性的成果送回来。随着阶段性成果一起送回来的是他在这边对数据使用的日志,我们根据这个日志做动态的审计、检查。如果说确实没有偷数据,再进入全局的分析,全局的分析在数据咖啡馆的云里面,最后把隐私保护的结果送回去。对于多方的数据同样处理。
在多方的架构里面,数据的提供方是不会让你的分析师看到数据的。不同的提供方也不会让另外一方看到数据。分析师的代码里面也有他的知识产权。他也不会让数据的提供方看到他的代码。这样形成了一种隔离,形成了相逢,但不必相识。这我认为是代表了这一领域的最前沿的研究。这个研究我们跟清华大学的贺飞老师有合作,他在形式化这一块有很好的工作。
原文发布时间为:2014-12-250