百度余凯:大数据人工智能

【CSDN现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。

百度研究院副院长,深度学习实验室主任,图片搜索部高级总监余凯发表演讲“大数据人工智能”。“得人心者得天下”,对于互联网公司来说最重要的是读懂人心,最重要的技术是基于大数据的人工智能。什么是人工智能?感知、思考和控制是人工智能的几个重要方面。真正智能的系统,是随着经验的演化,越变越聪明!经验是什么?经验就是数据。另外一个跟人工智能和大数据联系紧密的技术是深度学习。

百度研究院副院长,深度学习实验室主任,图片搜索部高级总监 余凯

以下为演讲实录:

下面,我可能更多从实践的方面去跟大家分享一下百度在大数据、人工智能我们最近的一些工作,包括我们对这些方面的一些思考。

2014年8月14日,麻省理工学院科技评论杂志介绍百度的人工智能之梦,文章题目叫《一个中国互联网的巨人开始有梦想》,主要内容是介绍百度在最近两年在人工智能和大数据这些领域的的投入,包括在人才方面的一些举措。

互联网公司:“得人心者得天下”

互联网典型特征就是大数据,大数据公司也是人工智能公司,以搜索引擎为例,搜索引擎一边给用户提供免费服务,这个服务背后还有一个非常精致的商业模型。用户免费使用服务的同时,贡献数据给平台。另外一边,我们拿这个数据做商业化的变现,实现数据的价值。从数据到价值中间需要技术,需要基于大数据的人工智能。比如说大规模的机器学习,移动互联网中的语音识别、图像识别,还有用户建模等,这些技术能帮助你精准读懂用户心里想什么。以前我们说“得人心者得天下”,而在大数据时代的今天,对于互联网公司,只要读懂人心,就一览无余。

从学术层面到高科技公司,再到政府层面都对人工智能越来越关注,人工智能机器人可能是下一个产业革命的爆发点,比如像自动驾驶,自动问答,虚拟现实等都跟人工智能有关,将来是科技创新的主战场。

学习的能力是智能的本质

那么什么是人工智能?应该包括哪几个方面,比如我们看到的机器人,首先他有眼睛,有感觉,能感知环境是怎么样,完成它任务怎么样做,通过感知把数据记录下来以后,要做思考,想想怎么做,后面你就可以行动。所以,感知、思考和控制是人工智能几个重要的方面。

我们看到很多科技公司推出各种各样的产品,比如说我们看到有智能手机、智能水杯、智能手环等等,还有百度推出的智能快搜,谷歌在做的智能汤勺,但是真正想一想这些产品是不是真的具有智能呢?我们把这些产品和60、70年代的老式收音机放在一边,他们的不同在什么地方?思考这些问题能帮我们想清楚未来方向,也可以区别现在的这些产品它到底是不是真的智能。真正的智能系统应该能随着经验演化越变越聪明,学习的能力,是智能的本质!

经验就是数据

那么什么叫经验?经验就是数据,所以我们到今天看到一个振奋人心的时代来临,这也是我们济济一堂来到这个会议的原因,这个时代是什么?就是大数据时代。

从万物互联到万物智能

今天在座每一位可能都跟我一样,身上带了至少两三个移动设备,平均每个人连到两到三个设备。半个多月前,在乌镇孙正义有一个更加疯狂的预测,预测2020平均每个人要连接到一千个设备,一千个设备包括你随身带的设备,你的wifi,甚至是监控摄像头。在移动互联网时代,我们看到的未来是万物互联,人跟环境,人跟物,物跟物之间都会发生连接。这种连接同时也意味着数据爆增,到达前所未有的广度和数量,大数据的时代使我们从万物互联到万物智能。

深度学习与大数据

很多拥有大数据的互联网公司,包括谷歌、脸谱和百度,都在成立研究机构,这个机构机构最主要的研究方向就是大规模的深度学习,聚焦点就是大数据驱动的人工智能。在百度内部,一个横跨各个产品线大项目获得了今年的百度最高奖,这个项目就是百度大脑。拥有上千台PC服务器,和将近1000台GPU服务器,构建了世界上规模最大的深度神经网络,百亿级的参数。我们基于这些基础设施,去研发世界上最先进的深度学习算法,包括语音识别、图像识别、自然原理理解、广告竞争匹配、广告建模等等。

深度学习其实它不是一个新事情,在30年前80年代末的时候,深度学习就已经是得到了广泛关注,而到了大数据时代的今天,它获得了更多的成功和影响力。为什么呢?

第一方面,深度学习模拟了大脑的行为。一开始做深度学习这帮人,他们的想法受到卷积神经系统网络的影响,在80年代受到了神经科学家对于视觉神经系统理解的影响;第二,从统计和计算的角度来看,深度学习特别适合大数据;第三,深度学习是End-to-end学习;第四,深度学习提供一套建模语言。

大数据时代传统深度学习的误区

我具体给大家讲讲第二点,深度学习特别适合大数据下。在统计上面分析机器学习系统效果时,一个最根本的角度叫推广误差,推广误差可以帮助我们找到误差来源,从而设计出更好的算法。一个经典的分解方法,把推广误差分解成两部分:

Approximation error:数学模型不完美导致的误差;Estimation error:数据不完美,比如数据有限或数据有偏,导致的误差;Optimization error:算法不完美导致的误差。

随着数据规模的扩大,从推广误差的角度来说,传统的深度学习研究中存在着一些误区:

从Approximation error的角度来说,过去我们认为简单的模型就是好的,但实际上简单的模型是不够好的,随着机器的增多,参数越来越多,模型越来越复杂,是大趋势,过去认为简单的模型是好的这是错误的观念;从Estimation error的角度来说,为了保证数据的精确,应该收集充分的数据;从Optimization error的角度来说,通常是学术界的观点是,开发研究非常精致的优化算法,但是这些算法存在一个大问题:不能覆盖大数据。比如,SVM的复杂度是在数据二次方到三次方之间的复杂度,今天处理一万个训练样本没问题,但是如果变成十万个训练样本,你需要一百倍到一千倍的计算资源,这是灾难性的问题,所以在大数据的时代,工业界反而要倡导的是desgin “an OK algorithm”。

深入百度大脑

我给大家举一些百度大脑的例子:

A deep model for image recognitionDLmodelfor query-docrelevanceLong-short term memory for timeseries网上抢票验证码识别运单手写电话号码识别述说图片的故事,字幕用深度学习程序写成同时理解图像和自然语言

深度学习已经取得了关键性进展,首先在广告系统,这可能是世界上首次把深度学习成功应用于广告变现,并带来收入提升,在用了深度学习之后,我们跟竞争对手的差距是拉开了两倍还多。

在物体检测模型上我们取得了世界上最好的成绩,百度第一,谷歌第二。

未来的展望

人类大脑的平均重量是1.5公斤,占2%的身体体重,消耗20%的能量。最近的一个报道显示,谷歌的服务器消耗美国用电量的百分之几,美国的所有互联网公司占美国耗电量的9%。在中国,三大互联网公司也占中国耗电量百分之几,智能计算是非常耗能量的。而人类大脑有一千亿个神经原有5000个的连接,每个连接触发每秒钟两次,做一个简单计算,人类大脑计算能力是10的17次方。在过去人工智能发展过程中,计算能力是非常强大的东西,我们今天的计算能力跟20年、30年前更是不可同日而语的,能构造更好的计算方法。

未来计算决定着智能水平的发展,人工智能这个奇点临近连接了,谢谢大家!

更多精彩内容,请关注直播专题2014中国大数据技术大会(BDTC) ,新浪微博@CSDN云计算,订阅CSDN大数据微信号。

时间: 2024-10-01 23:50:38

百度余凯:大数据人工智能的相关文章

百度余凯:数据是极好的竞争壁垒

昨日,极客公园创新大会在北京开幕,百度深度学习研究院(IDL)副院长余凯发表演讲,阐述大数据时代,人工智能与深度学习的发展. 以下是余凯的演讲实录: 各位朋友早上好!在我的演讲之前,先给大家看一段有趣的视频.大家看这辆车开进我们会场,正从我的左侧往右侧开过来,上面没有人,它自平衡行走,看起来有点诡异.为什么我们会做这样有趣的自行车?它是真正的自行车,以前的自行车不是自己行走的.为什么做这个事情,这个就涉及到我今天演讲的话题,就是百度大脑所思考的人机关系. 大家可能会好奇,什么是人工智能?这是一个

CAAI演讲实录|微软邓力:驱动大数据人工智能多种应用的三类深度学习模式

8月26日至27日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会发起主办.中科院自动化研究所与CSDN共同承办的2016中国人工智能大会(CCAI 2016)在北京辽宁大厦盛大召开,这也是本年度国内人工智能领域规模最大.规格最高的学术和技术盛会,对于我国人工智能领域的研究及应用发展有着极大的推进作用.大会由CSDN网站进行专题直播,并由百度开放云提供独家视频直播技术支持. 在26日的主题报告环节,微软人工智能首席科学家.IEEE Fellow邓力博士做了<驱动大数据人工智能多种应用

大数据+人工智能定义语音质检

本文讲的是 :  大数据+人工智能定义语音质检  ,[IT168 资讯]"2017中国客户服务节"于5月8日在北京钓鱼台国宾馆盛大开幕.此次展会是中国电子商业协会客户联络中心委员会举办的呼叫中心行业大型盛会,吸引了超过千家从事呼叫中心业务的各地企业参会,汇集了如中国工商银行.北京农商银行.中国人寿.太平人寿.东北证券等大型金融企业专业人才. 作为业界领先的语音大数据分析技术应用专家,中金数据系统有限公司受邀作为国内语音质检代表企业,分享了"大数据+人工智能定义语音质检&quo

大数据人工智能领域从菜鸟到高手晋级指南

我们身处一个"技术爆炸"和"共享.开源"的时代,先进技术的更新迭代速率超过了历史上任何一个时期,而且这些技术也不再闭塞,人人都可以接触并学习.终身学习已经是我们每个人不得不面对的问题,这一点在大数据/人工智能领域体现的尤为明显:层出不穷的新技术,一方面为我们带来了便利,但同时也使我们面临难以高效学习和选择的窘境.因此,在这样的时代背景下学习大数据知识,需要有相适应的逻辑和方法. 本文试图帮助各位读者用好各类"共享.开源"的学习工具以及学习渠道,躲

&quot;大数据+人工智能&quot;梦想旅行带你自由飞

文章讲的是"大数据+人工智能"梦想旅行带你自由飞,都说,人的一生中至少要有两次冲动,一场为奋不顾身的爱情,以及一次说走就走的旅行. 冲动的爱情不见得人人都会遇到,但是说走就走的旅行绝对会是你人生中要经历的一抹色彩.对于80.90,甚至是00后这些中青年来说,自由行往往是勇气.青春.浪漫的象征,"世界那么大,我想去看看,"再也不是一句空话,背起行囊说走就走已经成为了一种新时尚. 对自由行的憧憬总是美好的,但是往往会有一些小事件会把你拉回到现实,除了语言不通这样的尴尬境

大数据+人工智能 阿里搜索团队国际大赛再拔头筹

阿里搜索团队国际大赛再拔头筹 CIKM会议联合主席SnehasisMukhopadhyay(左二).翟成祥(右二) 同阿里搜索团队成员吴晨(左一)司罗(右一)合影 近日,在美国印第安纳波利斯举行的2016国际数据挖掘竞赛(ACM CIKM Cup 2016)传来好消息,来自中国阿里巴巴集团搜索事业部Natural ArtificialIntelligence团队凭借深度学习.机器学习的集成学习等人工智能方法,在88位参赛个人/队伍中脱颖而出,获得总成绩冠军. CIKM Cup是ACM CIKM举

《西部世界》暗示了大数据人工智能什么

本文讲的是<西部世界>暗示了大数据人工智能什么[IT168评论]上个月,听朋友说起最近有一部神剧<西部世界>在网上风靡.听这个电视剧的名字有点耳熟,在1973年,Michael Crichton执导的<西部世界>一炮走红,著名的光头影帝Yul Brynner扮演的机器人杀手是许多80后的童年阴影. 不同的是,这部新剧讲述的是在未来一座高科技主题乐园里,智能机器人与游客一起进行角色扮演,游客在公园内的生活本身就是娱乐.乐园会追踪和记录游客的行为,通过大数据的分析设计游戏新

百度正式宣布推出"大数据引擎"

摘要: 在昨天的百度技术开放日上,百度正式宣布推出大数据引擎,将打造一个开放平台,吸引通信.金融.物流.制造.农业等行业拥有海量数据却不知如何处理的传统企业进驻,为这些公 在昨天的百度技术开放日上,百度正式宣布推出"大数据引擎",将打造一个开放平台,吸引通信.金融.物流.制造.农业等行业拥有海量数据却不知如何处理的传统企业进驻,为这些公司提供存储.关联.分析大数据的能力,提供大数据基础设施. 百度大数据引擎包括开放云.数据工厂.百度大脑三层核心平台. 其中,百度开放云相当于百度&quo

D1net阅闻:海外投行抢滩大数据 人工智能等领域趋热

海外投行抢滩大数据 人工智能等领域趋热 记者注意到,人工智能的异军突起令海外投行意识到了抢滩创新科技的重要性,目前包括高盛.摩根大通在内的机构纷纷加大布局大数据.人工智能等领域.国际投行高盛近期透露,该行正在大数据领域施展拳脚.高盛科技部门联合主管Don Duet透露,公司正在人工智能和机器学习方面加大投资. 微软谷歌等高科技公司联手制订电子邮件加密标准 尽管电子邮件已经存在了几十年,但是它所使用的底层传输技术SMTP仍然是十分古老的技术.现在,来自于谷歌.雅虎.Comcast.微软.Linke