人工智能技术在大数据领域发挥的作用日益重要,IT技术人员对IBM Watson的兴趣也与日俱增。近日,IBM科技部的杰出工程师李永辉参加了 2014年中国大数据技术大会,并接受了CSDN云计算的专访,以Watson为例分析了人工智能技术的行业应用实践和前景。李永辉认为,通过结构化数据和非结构化数据的结合产生智慧是大数据未来的方向,以Watson为代表的认知计算技术正是要实现这一目标,其能力将融入到各种行业解决方案或者IT产品中发挥作用,包括采用云端交付的模式。
专访内容整理如下:
CSDN:请您先介绍一下IBM如何认识大数据技术的一些最新进展。
李永辉:首先祝贺2014年中国大数据大会取得成功,我们今天很高兴看到在会场有超过1000人参加大会,包括各个厂商和很多海外的专家,这代表大数据在中国的巨大影响和关注度。从IBM的角度看起来,大数据的4V 特性 (包括:Volume 数据容量; Variety 数据类型; Velocity 数据速度; Veracity 数据真确性或指Value 数据价值) 在未来都会有很多不同的发展,以至于未来的系统从硬件、软件的发展方向都会着重这4个V的配合。
IBM认为,针对结构化数据处理的传统数据库技术,和针对非结构化数据的NoSQL技术,未来都会有很大的发展。我们希望结合结构化数据跟非结构化数据产生一些洞悉来指导业务创新,这是我们看到未来大数据领域发展的一个主要方向。
CSDN:对不同类型的数据价值的挖掘,IBM现在也特别看重人工智能,您觉得哪些大数据问题需要我们采用人工智能的技术来解决?
李永辉:IBM把人工智能归类为认知计算的一个发展方向,认知计算的特点在于从传统的结构化数据的处理到未来的大数据、非结构化流动数据的处理,从原来简单的数据查询到未来发现数据、挖掘数据的重点。现在我们只是看人产生的数据,未来可能会有更多的一些传感器产生的数据、物联网产生的数据、机器产生的数据、可穿戴设备产生的数据等等,需要一个更具智慧的分析系统来帮助选择。
至于未来的使用方向,随着计算资源成本的降低、工具的开放和一些开源产品的发展,门槛会越来越低,而且认知计算未来会朝多个方向发展,针对不同的行业会有它自己自身的特性,而且每一个发展出来的产品会有更低的门槛,融入在未来的一些IT产品或者是应用里边一起发展。
CSDN:Watson是IBM认知计算技术的代表,您觉得它在产业中的优势如何体现?
李永辉:Watson是IBM为纪念100周年而设计和研究,参加了2011年美国电视游戏节目《危险边缘》Jeopardy并赢得了第二次人机大战。我们采用深度答问 (DeepQA) 技术,通过语义分析抓取关键字眼,分析问题本质,把它解拆到多台机器里面,并行做分析做搜寻对比,综合起来得出一个基于证据 (Evidence based) 的分析结果。
这台机器的特点在于结合了IBM在各个领域最好的技术,硬件平台是一个横向扩展到2880个IBM POWER处理器内核的集群,配合IBM GPFS的并行文件系统做好高性能计算、弹性扩展、高度并行化和分级存储管理,软件则结合IBM多年累积的研发成果,包括人类自然语言的解析能力,自我学习的能力,非结构化数据分析的功能集中在一起,所以是IBM最强的设备与最好的软件的组合。未来Watson的技术会使用在不同的领域,Watson的优秀技术将融汇到IBM新的硬件、软件和服务产品中。
CSDN:您刚才说针对不同的行业会有各种解决方案,能否介绍基于Watson的不同行业解决方案?是否有一些可以通过云环境交付的?
李永辉:赢了第二次人机大战以后,我们就希望把Watson商品化,透过它的技术融入到我们的产品,也结合不同的行业专家一起做。首先我们选择的是医疗行业,主要希望来解决人类目前解决不了的癌症治疗难题,或者说是为治癌症提供一种建议。
第二个行业我们切入金融行业,因为我们看到金融行业里边有很多的需求,像风险的管理,客户关系的管理,还有像那些财务报表的分析等等,实际上都可以通过Watson的自我分析能力提供辅助。往后我们还有不同行业的支持。
在云端的环境发展,Watson未来的计划之一是希望变成一种可服务的方式,包括在云端提供一些API的方式,来提供使用。目前有7个服务放在IBM BlueMix平台上,可以让用户用起来。这些服务很多是跟语言的解析、分析有关系的。可见的未来,我们会陆陆续续地提供更多的能力到网上。
CSDN:语言解析/分析在大数据中也有很多的应用,但中国和外国的语言会有一些区别,需要本地化,Watson系统针对中国做了哪些本地化的研发呢?另外有哪些成功的案例?
李永辉:语言的解析跟各个国家的文化、语言使用习惯有很大的关系,而且需要一个学习的过程。在Watson提供的服务里面,目前只有一部分的服务有中文的辨析,方便下一步大数据分析应用的采用。同时IBM再中国设立了中国研究院,也做了针对中国文化的相关技术研究和产品开发,在未来会有一个更好的结合。
Watson不像一般的机器是卖一套硬件,或者卖一套软件给客户,而是提供一个平台,希望跟行业有一个很好的结合,是结合客户本身协作的方式发展来应用的。为推动Watson的商业化,IBM今年组建了新的沃森业务集团,针对一些特殊的行业提供有关的Watson结合。刚才提到了我们的第一个结合是医疗行业的结合,在美国有一些医疗行业的企业共同研究。另外,在金融行业我们在全球和花旗银行、DBS等有一些合作。既然把Watson的一些服务开放到网上,我们预估未来会有各种各样的应用会整合到里面。
CSDN:刚才您说的抗癌应用,现在它的最新进展情况能介绍一下吗?
李永辉:抗癌是我们的第一个应用,在2012年左右开始,经过1—2年的安装、应用的调试还有学习,最重要是学习,因为医疗行业里边涉及到大量的历史数据,包括病人的病例还有大量的医学期刊等等。通过机器不断的学习,系统提供一个有证据的建议给一些医生,来帮助他们判断,诊断治疗癌症的下一步方案。因为机器不能替医生做医疗决定,Watson只会提供一个建议,并列出建议背后的数据或链接链,医生要做判断的时候,Watson会提供一个基于证据的分析结果或建议。
在美国已经有一些实际成功的案例,他们在治疗一些癌症病人的过程中,发现一些非常罕见的病征状况,全球范围内只有不到10个的医生知道治疗的方式,但是透过机器学习最新的医学期刊和研究报告,他可以告诉所有医生考虑下一步最佳行动或提供基于证据的分析结果。一般情况下,相对于浩瀚的医学知识,每年医生能花在学习些新东西上的时间很少,而透过机器学习的帮助,医生可以增加症状诊断的精准度,可靠性。
CSDN:抗癌可能是目前医疗界面临的最大的难题,那么用于其他方面的难题,是不是可以用相同的原理获得解决方案?
李永辉:从解决方案来讲,在癌症以外的领域也可以使用,只是每一个行业,甚至医疗行业内部的每一个专业,都有自己的专业知识,要做相关的信息搜集、分析等等,经过调试以后才能使用。所以说我们之前跟医疗行业合作的两个案例,都是超过1年的合作期才会有一个比较好的成果。
CSDN:培训的周期除了跟数据量、病症的复杂程度有关,还跟哪些因素有关系?
李永辉:首先,每个行业专门的知识都有它的术语,那些解析、分析语言可能不懂。IBM Watson有一些技术是可以找到一些新的专业术语,然后知道关联性,知道那个知识重要还是不重要,然后这些信息扫寻数据的时候我们就会懂得找一些相关的数据出来,这个是一个难点。
其次,每个行业,特别是专业的行业,它本身的发展还是很快的。像医疗行业,有生物科技的产生,还有可穿戴设备,对身体的素质、身体病理的特征收集的数据可能会海量的增加,怎么样把那些历史医疗数据跟新的数据结合交叉地分析出一个有用的数据,这也是未来的一个挑战。
另外,当处理行庞大数据的时候,机器本身的机制可能需要一些更更高效的一种方式来处理。
CSDN:您一直强调开源和开放,这两个方面我们有着什么样的努力呢?
李永辉:IBM是开源业界的一个重要贡献者。语言分析领域的一个国际的标准是UIMA,它为非结构化分析提供一个通用的平台,能够减少重复开发,里边实际上有很多IBM的贡献,同时这也是Watson在开发语音分析的过程里边的一种主要技术。下一步我们透过Watson也会发展水平扩展的技术,来实现语音分析大幅度的并行化。至于开放,刚才也提到像IBM的POWER——很高性能的一个核心处理器,这个是业界第一次有高端的处理器的技术透过OpenPOWER联盟开放给业界,还有一些CAPI的高速IO接口也会开放出来,我们预估会为未来IT行业带来很多硬件的创新与变化。
CSDN:您刚才还提到Watson有一些服务是要放在网上,如果第三方的开发者要应用到Watson的一些成果,对他们的技能方面有哪些需求?
李永辉:我们看到未来Watson的使用场景可能会有两个发展方向;一方面是透过开放API或者SaaS的方式让更多的用户可以使用Watson的一些能力,这部分基本上目前是通过免费的方式提供服务;另一方面是专业的系统,IBM会更紧密地结合行业,来开发有关的特色应用,跟行业结合每一个具备分析能力的系统需要很多的培训,每一个行业的要求都是不一样的。如同刚才举的例子,医疗行业治疗癌症跟治疗伤风感冒也是不太一样的。
CSDN:您能总结一下Watson未来的重点研发方向吗?
李永辉:IBM是非常着重研发的IT企业,有一个好处就是结合硬件、软件还有服务可以提供,包括云端的服务。除了将利用OpenPOWER联盟的成果,如通过CAPI高速连接通道更好地集成GPU、FPGA加速、内存共享等技术提升硬件平台的大规模实时处理能力之外,未来Watson的一个主要发展方向,是拓展更多不同的行业结合不同行业所谓跨行业的结合以外,同时也会透过云端,提供更多的、更好的服务给普罗大众,让他们也可以分享到Watson的研发成果。
CSDN:企业要实施大数据,如果他希望用到人工智能的技术,IBM有哪些建议?
李永辉:首先我们建议各个企业要了解到他行业、业务范围里边,有哪些地方可以结合大数据、或者非结构化的数据,进一步提升他们的服务,我们看到一些领域像客户关系管理,风险管理等等,结合大数据的分析,像社交数据的分析,会有很大的好处。这是行业内部,第一步需要他自己挖掘那些和业务链有关的数据。第二步,建议从小规模开始,成功了就可以大规模地使用。也就是除了传统数据库以外,采用一些非结构化数据分析的工具,结合这两者,可以更好地达到下一步的发展。
从平台的选择来讲,开始的时候也要考虑到未来发展下去,怎么在一种多租户环境把利用率提高,怎么提供更好的平台。IBM希望通过POWER的硬件,透过IBM的一些软件产品,可以给客户一个更多、更好的选择。
CSDN:最后谈谈您对今年的BDTC大会有哪些感受和建议?
李永辉:首先非常感谢主办方邀请IBM参加2014年的大数据技术大会。我们希望未来有更多的人加入大数据领域,希望在这个大会上,IBM和中国本地的技术专家可以跨区域地进行更多的交流,使中国在大数据的纵深领域继续发展。同时,也希望中国IT科技行业在未来可以更多的曾与乃至于贡献研发成果到开放、开源等社区来共同促进行业的发展。