【CSDN现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。
2014中国大数据技术大会首日全体会议上,IBM 大中华区系统与科技事业部杰出工程师李永辉发表了演讲“IBM Watson 大数据与分析平台:技术评论”。Watson得名于IBM创始人Thomas J. Watson,在2011年IBM 100周年之际,Watson参加了Jeopardy危险边缘电视游戏节目,在经历了三轮的比赛后,最终赢得了冠军。Watson并不是一台机器,是一个集群,一共有2880个节点。设计目标是能解答人类语言自然表达的提问,懂得分析大量非结构性数据,拥有自我学习能力, 并能实时回应的计算机。目前在医疗、金融、跨行业应用和云端服务中都有所应用。
IBM大中华区系统与科技事业部杰出工程师 李永辉
以下为演讲实录:
各位嘉宾大家早上好,今天很高兴参加2014中国大数据技术大会,今天很高兴介绍一下Watson的系统,大数据分析平台技术概述。在座的如果没有听过Watson是什么东西,Watson有很多的东西讲。Watson得名于IBM创始人Thomas J. Watson,在2011年IBM 100周年之际,Watson参加了Jeopardy危险边缘电视游戏节目,在经历了三轮的比赛后,最终赢得了冠军,奖金给了一个公益团体,这是我们Watson庆祝一百周年的活动。我除了介绍一下这个机器是什么平台,用了什么技术,我也给大家展望一下我们往后走的方向,特别是大数据分析平台这些。一百年的企业在前沿领域大数据继续展现,同时IBM中国今年刚好成立30周年,我们与中国共同成长。
IBM到现在编程方式处理数据,还有一个结构化的数据分析,数据分析报表是过去几十年的发展,我们会发现这些发展遇到瓶颈,瓶颈来自于大数据的产生,当你要处理大量数据时,要有新的方式处理数据挖掘关联等等,同时我们采用编程的方式写程序分析SQL的语句,做编程开发,往后随着数据量大幅度增加,你编程都编不及,时间来不及,数据量应用太大了。因此看到Watson,大家对它感兴的原因,除了第二次人机大战赢了人以外,另外开创了感知计算年代,处理一些传统的应用以外,我们还可以用一种具备自我学习的机制,你不需要告诉计算机你要学什么东西,自动挖掘保留信息给你,根据传统数据具备更新能力的发展。
从编程年代到感知计算年代,传统采用了搜寻的方式,未来主动挖掘的数据,传统找数据,搜寻机器都是有确定性的字眼,未来提供几率,提供有证据证明给你参考做决定。
未来除了非结构的数据,物联网、车联网甚至可穿戴设备产生身体数据等等,可能都会为将来的分析提供更多的维度的数据供应,还有人类自然语言的分析等等。IBM在这方面的调研会继续延续下去,只不过未来的发展是多方位的。
Watson的样子是什么样?Watson不是一台机器,实际上是一个集群,是IBM Power的集群。我们做一百周年人机大战的时候,结合了优秀的工程师、研究院还有硬件软件平台结合一起,集中起来做了这个平台。这个平台里面包含了10个机柜,5个在前面5个后面,里面有16TB的内存。响应是需要在两三秒钟做一个响应,因此我们很多计算分析都是在内存里面操作,它跑的操作系统今天我们也看到很多大数据的工具包等等都是在开源的社区。因此我们跑的操作系统有一些开源工具放在里面。
IBM把自身研究的工具放在里面,IBM贡献给业界很重要工具,自然语言分析,UMEA,我们采用高度并行化架构来提供支持。同时我们里边也做了一些深度大数据的分析,工具,还有我们采用了集群的方式,优化环境等等,这是大概它的平台介绍。
从这个平台我们看到,发展下去我们会有怎样落地方式?如果今天我们说中国有客户感兴趣,做这些有关的分析,从前我们是透过Watson平台基于power7的平台,今天已经发布了power8,从8个CPU到128个CPU,简单性能Watson提高一倍,而且他们提供非常大的内存容量。Power7到Power8 4.35赫兹,最高组频的芯片,这个芯片也能提供8线程的并发度,在大数据的世界里面我们要做很多的并行的操作,里边吞吐量非常好。
内存采用了记忆内存,在大数据处理中,内存的速度非常重要,速度是今天英特尔平台的4倍,处理内存操作过程里面。我打包一个直接写到内存,有问题一起回答,透过硬件来实现,通过编程方式实现操作。这里简单讲讲硬件差异,大数据领域有一个标准测试terasort,Power8做出来的结果超过英特尔公布出来最快数据的两倍,IBM为什么做Watson平台,有平台支撑我们高速率的分析。
我们今天需要新办法解决大数据的难题,IBM在Power8公开了标准,可以让板卡直接插在主板卡跟CPU相连,这是业界的创新,也是一个开放的标准,这种标准我们有一个客户做关键字的查询,大数据非常常见的使用场景。terasort是一个开源工具,做了24台机器,将来扩展数据要不停加机器,今天可以透过闪存把内存拓展开,板卡读到内存空间,我们在一台Power8机器里面插一个卡,接到闪存机器里面提供40个TB闪存空间,做数据交互,我只需要传统24台机器,我们只用一台机器,两个U的机器加两个的闪存替代了原来四个机柜的方案,节省了成本3倍。
刚才讲了很多硬件上面的创新,这个还不止,今天早上第一个议题提到,未来发展方向是开放开源等等,IBMPower现在也开放了,我们开放联盟叫open Power联盟,全球65家企业参加,包括谷歌自己开发了Power8样板机,将来用在谷歌里边。其中有11家在大中华区的企业,我们开放给全世界,同时中国政府也非常感兴趣,在过去几个月,我们得到很多中国政府支持,两个月前我们在苏州跟工信部的副部长杨学山宣布了中国的Power技术产业生态联盟的成立,未来我们再看到Power的芯片可能是在中国生产,这是一个真正的开放的一个平台。
刚才大概讲了一些硬件,接下来我从软件方面讲讲Watson软件。作为一个软件,你需要有一个基准,怎么叫好怎么叫不好。我们开发Watson参加了精准问答游戏的节目,大家不要以为问答很简单,你问一个问题我给一个很明确的答案,它的答案里面隐藏了很多双关语,当我们回答那个问题的时候,我们是需要了解到整个问题它在问什么?要很有信心,而且要很快速做回答,是非常难的一个事情。
因此我们在分析里边,我要设计一台Watson机器击败人类,我首先要知道人类表现是怎么样,在这个图里面我们列举了危险边缘节目参加比赛人的结果,红色代表赢家,灰色代表参加但输掉的人,红色的点聚在一起我们叫胜利者区域,如果我要发明一台机器能打赢人,我一定要把我机器的能力分析能力处理性能提升到红色的那个区域里边才能够胜利,所以我们看到从2006年,我们研发这个系统的第一代叫QA系统,发展到Watson机器四年期间慢慢一步步来的,一开始那个线离胜利者区域很远,那个图的维度说,X族回答问题的百分度,游戏节目里边提供了十道题,10道就100%回答,精准度就是回答正确度,答准就是100分,如果看到人类问答比赛结果还是非常优秀的。如果机器要达到那种水平我们要有很多的优化要做。
Watson在软件怎么实现分析问答比赛的技术?我们采用技术叫深度答问,分析问题本质,把它解拆到多台机器里面,并行做分析做搜寻对比,综合起来得出一个结果。一条问题会产生很多组成的语义组成部分,通过语义分析抓取重要字眼,我会把一道问题做成很多条信息作为下一步的分析,这个过程是数据产生更多的数据,更多的数据产生更多的数据,一条问题最后产生上十万的数据都不奇怪。
难点在于我需要在两到三秒以后抢回答,抢不到会被别人抢走。当时我做Watson开发,曾经做了比较,一道问题用两个小时才能分析出来结果,到最后我们落地超过2888个Power7那个机器,实现了两到六秒之间的回复。回答的流程,一道问题是这样子的,我把它分析里边的关键字眼,透过关键字眼我会做一些搜索,搜索之后我会找到最简单的回复答案,就是可能的答案,透过可能答案我再分拆到机器里面做搜寻找证据看那些关联性等等。透过关联性我到最后会做一个打分,打分出来以后会给机器做应答,如果我的信心度很高我就会抢答这个问题,如果我没有信心我就不回答,回答错误会扣分,这是基本流程。
这个技术,刚才提到了里边采用其中一个核心部分加UEMA,我们也理解到用户有厂家支持的产品,开源的技术分装给客户做内部大数据的分析,在UEMA的数据,结合语音分析解析可以做很简便图像简示给各位,打包在一起通过数据接入抓取,透过解析,解析完以后通过操作到最后结合结果再做分析,一连串的一条龙服务,我们可以结合在一起。
虽然刚才提到watson,实际上操作都在内存里边做才够快,但实际上你想想看,当我要教育那台机器,机器也需要培训才具备应答的问题,每天都有这么多的数据产生,我也需要把那些数据可以进入那个机器里面,我要怎么样管理。我们看到客户做大数据也会产生另外一个难题,我经常遇到开源很好,买了一大堆机器回来放在里面跑,一年加一台机器,第二年加一台机器,第二年又有新机器出来,难道我要买新的机器。经常会看到资源利用率不足的情况,我怎么样把资源调动起来也是一个难题,IBM也看到这个难题,我们也提供另外多部的调度平台,除了本身支持操作,可以支持开源工具,开源编程方式好像一种潮流,我那个平台可以支持一些开源的工具打包分装一起,调动有效资源,只要提交作业,看背后系统里面哪一个资源比较空闲就给你调过去。因此这种多租户的解决方案,可以帮客户有效解决在大数据里面面对很多项目很多用户,多租户环境调动资源。
Watson提到了,大企业遇到的难题跟我们小企业遇到的一个信息生命周期管理信息安全是一模一样的,当你数据量最大,你处理数据更重要。因此当我们在做大数据的同时我们也要考虑到怎么样有效管理数据,其中Watson,虽然刚才操作是在内存里面操作,数据也要定期备份,我需要有一个能具备管理性可管理性的文件系统。IBM有一个叫GPFS的文件系统,高度并行的普遍性的使用的文件系统,这个系统已经有超过15年的历史,IBM所有高性能计算系统都用GPFS。GPFS提供的好处是可以弹性增加减少数据节点,同时高度并行化的关系,增加吞吐量,底层可以做分级存储管理,你有一些数据很重要,像关键词你可以存在高速闪存的硬件里面,如果几十年前的数据放在比较慢的存储里面,可以有效分级管理存储,同时我也可以把数据透过GPFS词带,自动迁移过去,帮你有效解决数据管理的难题,同时也能够提供接口,一般的文件系统,CD等等,可以全都操作起来,等于说所有的那些管理工具、脚本都可以用在这个GPFS里面,Watson采用的方式把很多数据放里面,启动把一些关键数据上载到内存里面使用,同时我有一个远程复制的机制来提供远程同步复制或者是跨地域非同步复制技术,可以让全局的环境里面提供本地的数据也可以远程数据,提供一个文件系统给各位,同时将来我们也会提供一个网关接到开源或公用云存储平台里面去,这是GPFS环境。
Watson未来的计划,刚才就讲了Watson是IBM一百周年做的第二次人机大战的平台,用了公司研究院的名字,不可以输。我们第一次人机大战是1997年,可能在座00后的人没有听过,97年第一次人机大战采用深蓝的平台,深蓝的平台是下国际象棋的平台,那个时候采用Power2的机器,32个节点,今天我们Watson是90个节点,Power7,2287个节点,我们下一个计划要落地,落地先挑一个行业,第一个行业是医疗行业。为什么?Watson深度分析技术需要跟行业有很紧密的结合,我们当时挑选医疗行业,怎么样治疗癌症,收集医疗信息等等帮助医生治疗癌症,还有金融行业,目前发展跨行业,最新今年公布的一些服务,在网上提供免费服务。
先讲讲挑选癌症,我们把很多病例数据扫描到资料里面,几十万个期刊扫进去,病人之前病例扫进去,当有一个新的病人进来的时候,根据最新医疗期刊的建议给一个医生提供具有证据医疗建议,首先要强调这个不是替代人类去做医疗做医生,给医生帮助他来解决那个难题,我们看到医生也是人,他没办法每年花大量时间学习各新领域的内容,我们看到一年医生能花5到15个小时学习新医疗的技术已经非常了不起。我们有生物科技,有埃博拉等等,这些病是从来没有解决的,我们通过机器帮你解决。下一步计划,刚才提到了把Watson通过服务方式提供出来,我们已经开放了,目前免费开放8个服务可以提供,你把一篇文章告诉它,扫描之后知道你的文字是用哪几种文字,能辨析20几种语言,能知道语言可以做下一步分析可以找到一个最合适的工具分析,做语言之间的转换,根据你的语言文章判断你用户是什么类型用户,比方他是外向的用户、知识型的用户等等帮你做个性化的服务给客户。这里面的工具,现在提供的服务可能都是比较基础型的,可能是提供文字的分析类型的辨析等等,未来我们看到会陆陆续续会有更多更多服务提供。
最后,刚才一早第一个讲者李院士也提到,希望我们大数据领域是跨界的,跨得越远越好,IBM也希望在这个领域跟中国客户做更多跨界服务,大数据是一个新一代的自然资源,这是IBM总裁的说话,我们在过去一年间已经跟很多行业做了一些跨区的合作,这也是表达了大家对IBM大数据发展支持研发能力的体现,像最近跟腾讯网今年6、7月份世界杯期间做了IBM的语音分析,做了一些给世界杯的观众实时分析大家网上的评论来看每一场球赛热点,哪一个球星是受到表扬等等这是非常成功合作项目。
最后给大家一个很简单的短片,看看IBM watson还可以跨界到什么领域。
更多精彩内容,请关注直播专题2014中国大数据技术大会(BDTC) ,新浪微博@CSDN云计算,订阅CSDN大数据微信号。