苏中博士:从大数据到认知计算

各位好, 今天讲的话题是我们对大数据、云计算、人工智能的一些观点。

大数据最大的问题就是大?到底有多大,这是我们做的预测,预测到2020年这个数据会到44个Z,这个数据量已经大到无法描述了。为什么会那么大?有一个很大的动因就是我们手里的手机,我们今天来参加这个大会,可能很多人拍很多照片,会把照片放到网上,或者也有很多的文字记录。那我们对2017年有这样一个预测,在我们移动端的数据,它的计算能力和存储能力将超过服务器端的能力,这是很可怕的一件事情。因为我们讲IT的行业是很大的一样,就像刚刚李院士包括谭院士讲的数据中心,很多的服务器、存储、网络、光线连进去,但是由于现在的计算会慢慢的往端发展,数据的产生速度会变得非常大,2017年端上的计算能力将超过服务器,这会改变整个社会。另外在很多行业也产生很多新的数据,李院士讲车,车有很多的雷达、摄像头,计算机视觉技术让它可以在车道上跑,看到行人避让,我们讲这是物联网数据。比如在我们的天文领域也有这样的项目,叫做一平方公里天线项目,它每天产生14Exabyte字节,每天产生的数据量相当于两倍的全世界互联网产生的数据,这个数据量产生之大,让整个系统99%以上的数据产生的时候不得不被扔掉了。我们构建这么大的天线干嘛呢?最近很多科幻小说很热,,如《三体》,人类对于外太空探索的很大动因是看看世界上宇宙当中是不是最唯一的智慧的生命,那么大的数据量,我们把99%的数据扔掉,因为不扔掉也没有办法。可能那99%的数据里面就包含着蛛丝马迹,所以大数据这个话题,这个“大”本身就带来很大的问题,也带来很多的机会。谈到今天的讨论,IBM这个公司已过去一百多年,IT行业能够活过20年的企业并不多,IBM能活过100多年,是因为它与其他企业有很大的不一样。我们每过一段时间,就会看一下未来IT产业往哪个方向去。在IBM公司有一个活动叫做GTO,分析出未来的3到5年或者10年技术的发展走向,用这样的技术发展走向来指导公司的战略。在过去的几年,从2012年到2015年,结果表明大家看到的都在讲数据,刚刚谭院士讲数据的4个V,是IBM研究部门在2012年提出来的,包括数据的四个方向,数据的分析、流计算、质量,如何产生更多的价值等问题。

2015年刚刚提出一个新的观点:数据会改变整个行业,工业界。大家感觉会有什么样的变化呢?我们其实在看到,刚刚讲数据的时候,发现那个图里面会看到越来越多的数据是我们人产生的,称之为非结构化数据。比如李院士讲的无人车,里面很多摄像头的数据,这些数据是机器现在非常难处理的非结构化数据,比如文本、图像、语音数据。所以2011年的时候正好IBM百年的时候,我们做了一个事情,这个跟我们以前做的事情有点不一样,我们希望计算机往前突破一下。因为上世纪50年代或者再早期,人们设计计算机体系架构的时候,希望计算机能够像大脑一样会思考,像人这样的智能是什么能力呢?人最复杂的能力是人的语言能力,语言使人类和其它哺乳类动物有很大的区别。而且语言很多情况下是后天产生的,我们人脑是很复杂的机构,通过大量的学习,一个小孩在北京就是北京口音,他到纽约讲的就是地道的纽约口音。历史上有很多有意思的事情,印度曾经有狼孩,后来发现虽然他们的大脑和智商没有问题,但是由于一直面对的是狼的生活环境,所以这两个孩子实际上后面很大的障碍就是语言能力。其中一个活到了十几岁,但是她只能讲很简单的一些字母。从这个角度来讲,如果能让机器解决语言问题,能够听懂人讲话,能够和人交流,那么我们就说这样的机器就有了智能。所以从整个人工智能角度来讲,刚刚李院士讲了很多大数据的课题,而从智能来讲,让计算机理解并且使用人类语言是最大的一个课题。就像图灵测试里面的描述的场景那样,当一个机器和一个人分别被关在屋子里面,其他人同屋子里面交流时判断不出是机器还是人的时候就是智能。2011年IBM全球研究部门做了一件事情,我们叫WATSON。因为这个比赛就像我们国家一站到底一样,不同的是这个比赛有几十年的历史,什么问题都问过。所以它的数据量,从人工智能角度来说,是一个开放空间的问答系统。我们当时在做这个系统的时候,当时全世界做的最好的开放领域问答系统能够做到20%、30%的正确率,当时的目标是跟人比赛它能赢,分析了一下人能做的程度,参加比赛的冠军选手具有过目不忘的能力,他们在比赛里的准确率能在90%以上,20%到90%是很难的事情。IBM在研究过程当中也是跟很多的美国高校、研究团体合作。就是因为有维基百科这类的大数据的存在,系统后台充分利用很多互联网数据,不断学习提高,让它最后能够在人机比赛中获胜。做完WATSON人机比赛的时候就在想能不能让它干点其它事情?它既然能够了解自然语言,既然能够分析海量的数据,能不能让它改变医疗、教育?所以从那以后就成立了我们的一个事业部--WATSON事业部来做这方面的市场推广。

从这个角度出发,我们看到整个市场或者技术迈入了新的领域。从IBM看来,在过去,在计算机刚刚发明的时候,计算机的输入是固定的程序逻辑,那时候计算机用来计算导弹的飞行轨迹、人口普查的数据分析这一类事情。直到高级语言的出现,人和机器有了沟通方式,可以编写程序,设置参数,我们进入编程时代。现在生活当中的点点滴滴,我们用的互联网,银行的后台系统、智能交通都是编程时代的产物。IT发展到今天计算机还能做什么?我们定义成认知时代。计算机可以做一些原来一些知识工程师的工作,计算机算的比人快,现在银行可以算到每天的利息,其实它甚至可以算到每分钟的利息,因为它在计算方面比人快,但是能不能让计算机像理财师那样投资股票,金融机构的投资理财需要掌握很多的知识,了解行业的法规,大量阅读相关新闻,机器能不能像理财师一样自动阅读并把里面的知识存储下来,提供投资理财的建议?从这个角度来讲,计算机时代进入新的时代,我们叫做认知时代。

什么叫认知计算?这个现在也有很多不同的定义,我们给出的定义是,利用大数据,因为计算机的智能没有做到真正像科幻电影讲的智能程度,但是由于大数据的存在,一个计算机让它认识苹果很难,但是当算法有足够多的数据,给它一百万张照片认识苹果是什么,它确实可以做到比人好,因为大数据的存在,因为算法的提高,机器学习的能力也比以前好。我们利用大数据帮助人做更好的决策,人和机器在一起可以做到比单个的人或者机器做的更好,我们就说这样的能力就是一种认知的能力,这也就是认知计算。

认知计算有三个很关键的问题:第一个新的计算体系架构,传统的冯诺依曼架构是非常偏人的左脑能力,集中在计算和推理上,一个CPU的核只有一个计算核心,但是人的大脑里面有几十亿的神经元都在计算,虽然频率很低,但是因为计算单元非常多,并发的智慧可以做很多复杂的事情。特别是模式识别的这样的一些能力,我们总结为右脑的能力,我上次看到他,这次看到可以很快认出,但是计算机单核做的话要很长时间。我们需要新的计算架构让它更快的具备处理的能力。第二方面是更好的处理自然语言,处理非结构化信息,再有一点能够跟人有更好的交互。

下面给出几个例子,这几个例子是我们在做的一些事情:第一个例子是我们做一些类脑的一种新的计算架构。它做到的程度是芯片上面集成了相当于几千个人的神经元,它最大的一个好处是因为它集成在芯片里面,像类脑的方式。计算为什么慢?第一个计算核心很少,只有一个单个的计算节点,第二个需要在计算核心和总线和内存里面做反复的数据交换。现在可能大家也觉得深度计算很热,很多时候深度计算CPU很慢就用GPU算,为什么呢?GPU里面因为计算核心比较多,有几千个浮点计算单元,这样可以加速几千倍。可是GPU仍然很慢,因为它需要和内存打交道,每算一个迭代,导到内存再导出来做下一轮的计算,如果做一个新的类脑,把内存和计算核心集成,而且每一个计算核心有很大的运算能力,那样就可以大大的增速而且节能。现在一个超算中心需要一个小型城市的电力供应。我们芯片做出来以后做了一些实际的测试,比如说在做模识别,可以做到实时,看到一个街景,可以把看到的人、物都标识出来,这样可以放在手机里面,手机里面做人脸识别可以做到实时性。如果把这个场景搬到电脑里面,多核的PC服务器也做不到实时,但是能耗上是好多数量级的简便。如果这样的技术可以用到实际,它就可以改变很多。端方面的进化,我们手机会变得越来越庞大,车可能将来变成一个载体。但我觉得手机会变成很多的载体,像冯小刚导演拍的《手机》那样,会变成一个个人,我们的衣食住行它都知道,我们在哪跟谁联络,在上面查邮件,跟谁聊天,所有的信息都在上面。但是很大的一个局限就是手机这样的移动设备电池是它最大的瓶颈。如果手机里放置一个实时的、人脸识别的系统,可以通过刷脸登陆这个系统。但如果一直打开,一直打开的话,手机很快就没电了。有了这样新的芯片技术,那么像这样的应用就可以放在手机上一直检测。我们看到很多,比如谷歌眼镜,眼镜为什么做不好?因为手机毕竟后面可以放很大的电池,眼镜里面电池可以多重?所以低能耗的,能够做模识别,能够做语音,很多的自然语言处理的低能耗的新的计算技术一定可以帮助移动设备带来很大的改变。

还有一点,既然像这样的认知技术可以来去做,可以理解人的语言,它也可以学习海量的一些技术类的文档。我们拿医生做例子,好的癌症科的医生,专科的癌症科的医生,全世界有很多科研机构,他们在不断做着各种各样的研究。做这些研究的同时,相应的信息会发布在各种各样的医疗文献杂志上,如果你要成为一个好的专科的癌症医生,你每个礼拜大概需要80个小时来阅读这些新的文献。大家想一下,一个医生什么都不干,一个礼拜七天,每天十几个小时时间保证你的知识是在更新中。这意味着你在医学院的时候,你的知识体系还是新的,从你毕业的那一刻,你要花时间开始看病人,开始上手术台,你的知识就会缺乏更新而变得陈旧。如果计算技术,我们的机器可以很好的理解这些语言,了解这样的一些信息,可不可以辅助医生做到这件事情?我们在跟纽约的基因中心做了这样的事。我们讲癌症,中国老龄化很厉害,人越衰老,身体里的细胞不断复制,每次复制都有一个小概率,可能发生一些变异,有一些就是癌变。换句话说每一个癌症都不一样,它在不同环节变异。我们纽约基因中心做的就是研究致死率很高的脑癌,一个脑癌的患者,把他的健康脑的细胞组织拿出来做测序,再把癌细胞做测序,对比就能分析出变异发生在哪个环节和其变异原因。进一步分析所有的新的医疗文献,对照着在类似的基因片断发生变异的科研工作者的文献和化合物的选择方面,就能够提供个性化的方案。以前只能用物理的方法,脑癌来了看用什么刀切;如果采用基因疗法,每个人都是不一样的,这样的方法是基于海量的大数据做个性化的诊疗,这是一个例子。

另外一个例子是说我们现在经常去医院,进去后做各种各样的检测,比如说做CT 、核磁,这样做非常耗时,拍出来一个片子十几分钟,需要专门的放射科医生看,为什么在中国,前一段时间跟一些医生交流,看病难看病贵是什么问题造成的?其中有一个原因是因为数据实际上是不交互的。我在A医院做了一次CT,到B医院还要重新做,其实问题不是这样的,最大的问题是做CT的时候需要放射科医生非常有经验,另外他需要看到标注出来的东西是很重要的。比如从几万帧图像里面标出来异常点。读这些片,放射科的医生是需要非常有经验,这个又非常费时,而且没法并行。美国现在的医疗系统里面读片子的人已经外包给印度,让印度的医生看,印度医生看完以后标注给美国医生做会诊,既然这样的数据电子化,所有的医生上面都已经有电子标注,可不可以让计算机做的更好,我放一段简单的视频。

这个就是这样的系统,既然我们可以让原来放射科医生外包到印度,那计算机既然有海量的数据那让它来算。这是一个放射科大夫的一个日程表,本来要看很多的,需要看一些人的放射科的记录。它可能分几个步骤,第一个步骤到医院做简单的血检、尿检,这个人是心脏的一些问题,它会有一些基本的治疗,了解一些我们觉得它病因的原因。第二步是做心电图,第三步做心脏造影,整个过程是一个海量的数据的搜集整理,实际上是从一开始很多种的可能性,一步一步到最后的病因,然后采取诊疗方案。这个过程所有的数据进去以后,系统会自动的把这些东西分析完,最后给医生一个建议,告诉他最后筛出病是什么。这样我们想说我们可以利用大数据的技术,利用海量的分析,真正做到个性化医疗,这一点是WATSON打开的大门。

职业律师的时间也是非常贵的。BlueSCAN这是系统是我们中国的团队做的项目。因为律师最大的事情是阅读很多的法律文献,比如说打一个官司读很多东西的时候要花上百个小时才能把东西的来龙去脉弄清楚,我们签合同的时候要让律师审,A公司的模板和B公司有不同的地方,里面有危险的地方要标出来,法律的语言我们看一下,感觉有时候故意把简单的问题复杂化,普通人读不太懂的,但是律师懂里面的风险。既然这样我们计算机能不能做这个事情?做这个系统希望让计算机读一篇法律的文档,一个条款,几百页的合同,能够在很快的几分钟内把这里面所有的可能的点侦测出来,这样把律师原来需要几十小时的时间变成几个小时。同样我们还可以用到保险行业。最好的服务,我们讲人们最喜欢的服务,实际上是一种自助式的服务。其实我到一个商场买东西,并不希望一个人跟着我,我想自己去看,自己去听,但是还想得到别人的意见。最好的方式像是一个私人助理一样跟它聊,这个东西不好,我太太喜欢那样颜色的,它会告诉我隔壁还有这样的,这样自助的服务其实这里面就需要很好的交互性,系统需要很好的交互性。同样我们利用这样的认知技术解决交互的问题以后就可以改变这方面的问题。

我们讲的认知技术时代已经到来了,这个时代的到来是因为计算已经到了一定的程度,由于大数据的出现,我们原来觉得很多智能的技术,比如到上世纪50年代到80年代,出现过好多次人工智能的热潮,上世纪60、70年代就说计算机可以当医生了,但是后来又恢复平静了。事实上过去这么多年,计算技术在不断发展,最主要的一点是大数据的出现。计算机虽然没有想像的聪明,由于海量数据的出现,让他认两百次苹果可以认的比人准,以前想像当中做不到的事情现在可以做到。加上最近的一些技术的发展,尤其类脑计算,我们开始在想计算的本质是什么?以前我们觉得只有人才能做的事情,计算机可能也可以做。比如说我们刚刚举的例子,计算机可以当医生,计算机可以辅助律师,我们也看到报道说计算机可以帮助写一篇文章,也许今天会议结束以后,计算机可以写一个很好的会议总结。认知计算和很多新的技术一样一步一步走来改变着这个行业,这个行业会催生很多机会,推动传统企业向新的方向发展,企业如能把握住这个浪潮,就可以把握住新的发展机会。

本文来源于"中国人工智能学会",原文发表时间"2015-11-10"

时间: 2024-07-29 23:20:20

苏中博士:从大数据到认知计算的相关文章

从大数据到认知计算,未来需要更强的计算能力

认知计算是IBM提出的概念,认为"认知计算"是通过与人的自然语言交流及不断地学习,从而帮助人们做到更多的系统,是从硬件架构到算法策略.从程序设计到行业专长等多个学术领域的结合,能够使人们更好地从海量复杂的数据中获得更多洞察,从而做出更为精准的决策.IBM清晰地把认知计算定义为--具备规模化学习.根据目标推理以及与人类自然互动能力的系统. 认知计算和大数据分析有何区别? 大数据分析属于认知计算的一个维度.与大数据相比,认知计算的范围更广.技术也更为先进. 认知计算和大数据分析有类似的技术

中国人工智能学会通讯——大数据与认知智能

今天的主题是机器学习和人工智能.首先讲机器学习,刚刚铁岩给了很好的介绍.如果用从处理数据集x和目标y的角度对机器学习进行简单分类,可以大致归纳为以下三点:第一,对于Supervised Learning,学习的核心是从x到y的映射.如果目标y是离散的,它就是分类问题,例如人脸识别就是一个机器学习的分类问题:如果这个y是连续变量,那就是回归问题,比如对雾霾的预测就利用了回归的方法.第二,对于Unsupervised Learning,只有一个x,没有y.第三,增强学习处于监督学习和非监督学习之间.

专家:大数据给认知计算技术发展带来新机遇

北京(CNFIN.COM / XINHUA08.COM)--11日在此间 举行的 一场研讨会上,来自科研院所?高校及企业研发部门的国内外专家济济一堂,就大数据时代的认知计算发展展开热烈讨论?与会专家表示,大数据给认知计算技术的发展带来 新的机遇,认知数据的实践正倒逼认知科学的发展? 在这场名为"从大数据到认知计算"的研讨会上,多位专家 认为,大数据时代使认知计算面临前所未 有的发展机遇?中国工程院院士李德毅发表演讲说,在大数据时代,自然?生命?社交等多个领域http://www.ali

趣店转型 大数据技术精确计算用户信用值

ZD至顶网软件频道消息: 近期,成立仅两年多的趣店集团拟入股消费金融公司,借此持牌,积极谋划扩展自身在Fintech(金融科技)领域的布局. 据趣店联合创始人何洪佳透露,早在2015年初,趣分期就已经不再局限于校园,而开始布局非校园业务,转型后趣店用户结构发生了"群体变化"这样质的改变,目前已经全面停止校园地面推广. 目前,趣店非校园用户已逼近2000万,用户覆盖了白领.蓝领等消费群体.最令人瞩目的是,趣店借贷业务的逾期率只有2‰,仅为同行企业的1/10,实现良性循环.何洪佳表示,面对

大数据技术中计算与数据的协作机制

大数据技术中计算与数据的协作机制 王鹏 黄焱 刘峰 安俊秀 大数据系统也被称为面向数据的高性能计算系统, 与传统高性能计算系统相似, 其计算和数据存储通常也是基于机群实现的分布式系统.以计算与数据的协作机制为主线分析对比了面向计算的高性能计算和面向数据的高性能计算, 指出正是计算与数据的协作机制决定着大数据系统的基本结构和性能.分布式文件系统与计算通过协助机制的融合是大数据系统实现自动并行化的基础.与面向计算的高性能计算系统不同, 大数据系统以切分数据并将计算向数据迁移作为协作机制的主要原则,

唯品会大数据存储和计算资源管理的痛、解决方法与思路(附PPT)

本文根据单超老师在[2016 DAMS中国数据资产管理峰会]现场演讲内容整理而成. (点击"这里"获取单超演讲完整PPT)   讲师介绍 单超,现任唯品会大数据平台高级架构师,曾带领团队完成了唯品会的Hadoop平台上线,Greenplum数据仓库迁移,基于大数据的ETL系统开发,storm/spark实时平台管理等工作.目前致力于完善大数据离线和实时全链路监控系统,自动化大数据平台问题管理和资源管理,构建实时多维分析平台等技术方向的工作.   大家好,很高兴有机会分享一些大数据方面的

阿里云“数加”大数据平台为计算加点料

数据在现在的年代一点也不缺,大数据时代是一个很好的解释,而且计算也是我们从很早就开始做的一件事. 计算在那个年时代是一件相对困难的事情,但是在现如今计算的能力却平易近人.这就不得不说到图灵,他被誉为计算机之父,其让计算发生了质的飞跃. 为了计算而奋斗始终 为了无法计算的价值,正是现在企业要做的一件事,而这也成了阿里云甚至是2016栖大会上海站的主题,阿里巴巴集团首席技术官王坚对计算这点事做了充分的阐述. 阿里巴巴集团首席技术官王坚 因为有了互联网+数据+计算产生了巨大的价值,使得人类有机会看到以

【干货】牛津博士讲大数据和量化金融

演讲全文: 很高兴来到这里,我是第二次参加这种会议了.我这次是以第二个身份来的,就是牛津大学NIE金融大数据实验室,代表实验室过来,今天主要分享一下我们实验室做的关于量化金融的思考跟案例. 首先简单介绍一下我们的大数据NIE实验室,是一个全新的实验室,是2013年11月正式成立的,我们实验室的定位是世界主要大学的第一个以金融大数据为研究方向的实验室. 我们是交叉学科的实验室,目的是把数据科学运用到金融领域,包括很多学科交叉在一起.因为我们的接口是牛津大学金融数学系,这个系框架上有金融.计算机.统

你对大数据的认知,也许都是错的

大数据并不是在大,而是有用. 本文作者汪祥斌:腾讯系创业者,大数据公司DataEye创始人&CEO,这是大数据观察系列第一篇.授权首发于南七道公众账号. 自从美团王兴提出移动互联网下半场的概念后,大家在谈论每一个行业时,都要提到下半场,包括大数据行业.大数据的概念在这几年,火爆程度不亚于AI.VR等概念. 但是,作为一个大数据创业者,在谈大数据的下半场之前,现在互联网界对于大数据这个概念有太多误区.你所知道的大数据的概念,也许都是错误的. 大数据并不是在大,而是有用 首先,大数据并不在于其大,而