院士李德毅:大数据认知(演讲全文)

导读:李德毅院士通过介绍作诗、语言翻译、语音识别、保险、人脸识别,深入浅出地阐述了大数据认知的方法学。大数据标志数据密集型科学的新时代的到来,大数据时代是小模型、小定律、交叉学科的时代。大数据认知的突破口在于聚类。提倡利用云加端的形态和深度学习,研究制造神似形不似的云机器人。介绍了驾驶服务云机器人、语言机器人,提倡研发机器驾驶脑,展示了无人驾驶客车的研究成果,介绍了团队正在进行的智能车的六类试验与评估,倡导研究者做实践中的研究,少做研究中的实践。

2015年8月14日,由中国科协、中国科学院指导,中国人工智能学会发起主办的第五届中国智能产业高峰论坛在上海长荣桂冠酒店顺利召开。

中国工程院院士、中国人工智能学会理事长李德毅在论坛上发表《大数据认知》报告,以下为报告全文:

认知科学跟人工智能是什么关系?我们争取在这个问题得到一些认识。

1大数据认知的方法学
人工智能最重要的就是知识表示,或者叫知识认知的形式化。我们有一个教授做了一个很有意思的工作,把李白的一生所写的1010首诗碎片化,把他所有诗句进行“机械切割”,把这些切割后的字串构成数据集,变成了小数据。我们用毛泽东生日18931226 作索引,所作的诗是:秀玉竟不还,西湖哀苦寒。凤楼留不住,夜郎醉不眠。 通过这个例子告诉大家,数字是不同于物质和能量之外的人类的资产,数据就是新时代的石油。

我在十几年前曾经带过一个研究生,做过一个有关“野蛮翻译”的硕士论文。大数据的认知方法告诉我们,要重新思考是先有语言学还是先有语言,翻译问题如何形式化?

谷歌的成功主要是大数据下的搜索引擎和排序算法,充分利用了群体智能的数据,各种语言之间的转换服务,每天超过10亿次,使用人数每月超过5亿人,谷歌眼镜可用7种语言对图表或菜单进行即刻的逼真翻译。为什么可以做到这样?是由于对话模式由32种语言的翻译机器人来回沟通,大数据造就了高度准确的自动实时翻译和自学习。这一点是值得我们人工智能学者深思的。

我们一直喜欢用DNA检测,将来人脸识别和说话人识别联合使用,实现金融支付,可望很快成为常态!我们用科大讯飞的语音解说中国人工智能大会,让已经退休的李瑞英女士为我们做广播。

这就是大数据的力量。

所以从大数据的成功运用反思日本五代机的失败,值得我们思考。今年 IEEE国际数据工程大会(ICDE)的最大亮点是将10年最佳论文授予2014年图灵奖获得者Michael Stonebraker的论文“One size fits all”。该论文回答了大数据时代的一个基本问题:“是继续构建通用数据库系统,还是构建特定负载面向特定目标的系统?”作者支持后者,所以我们一定要把大数据的资产用好。我们要不但享受互联网带来的方便,还要包含区别于物质的数据资源的价值发现和价值转换,这里面人工智能起着很大的作用。

大数据已经成为网络时代人类社会的重要资产,今天,移动互联网支撑的手机可以低价或者免费,如小米手机;明天,物联网支撑的空调机、电视机是否可以低价或者免费?后天,家装、家居、汽车、家庭服务机器人等是否可以低价或者出租或者免费?

手机、电视机、汽车和聊天机器人等作为传感器,为互联网商提供源源不断的大数据资产。大数据本身,既不是科学也不是技术,是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,以3个数量级的阶梯迅速增长,是用传统工具难以认知的、具有更大挑战的数据!

聚类是大数据使用的一个突破口。我觉得我们要研究大数据的聚类。

人类走过了几千年的实验科学、几百年的理论科学、几十年的计算科学之后,迎来了数据密集型科学的新时代。对于老一辈科学家来说,大数据的挑战对于科学的震撼是地动山摇的。

我们是个产业会,智能产业论坛。我们讲一个保险公司在大数据面前,应该怎样改变它的运行方式?保险,尤其是车险,传统的是分为ABCD类:A类连续两年没有出车祸的、B类最近一年没有出车祸的、C类过去一年出了一次车祸的、D类过去一年出了两次及以上车祸的;如果经常出车祸,保险费就会高一些。但是随着汽车成为双驾双控轮式机器人、成为大数据发生器以后,每一次驾驶,每一次维修,每一次行程,甚至每一次刹车,都记录在案,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低、不勤开车的特定客户,给于更大优惠,而对风险太高的客户报高价甚至拒绝,总之,能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式!大数据聚类成为保险公司的核心竞争力,精细化的为个性化服务。

刷脸是人的身份识别的一个方法。奥巴马这张脸从几何结构上分成1到10个距离特征值,这样的方式做起来太繁琐。结构化人脸大数据聚类的局限性,本质上仅仅是几何结构的聚类而忽略了聚类的不确定性、多样性、过程中简单的群体交互性、聚类样本的可获得性、聚类结果的评价标准(群体认知的共性),尤其是表情、年龄、肤色、基因、性别、姻缘等太多因素。所以,智能产业界的朋友们,如果能够从一张全家福里面找到儿媳妇或者女婿来,我觉得这个产业就能赚钱。

如果说几千年、几百年、几十年的科学主要靠天才归纳而成,并取得共识,学科重点在解释,形成逻辑推论,即公理系统的定理和推论,可以认为是“大定律、大模型、小数据”的时代,数据围绕模型和程序转。所以我说:这个改变是地动山摇的。

公理、模型、程序要围绕数据传,形成数据定义的系统。

所谓“创新”,在大数据时代就是要靠数据说话,要更多的依赖大数据,这些数据常常是交叉的,因此体现在交叉理论框架下建立的。如果说物理学和化学是传统科学,也许我们可以研究物理化学,那里更有可创新的地方。要学会理解程序和模型怎么围绕数据转,要研究基于统计的可变视角和可变尺度。

2云机器人认知
今天透露一个我个人的学术观点,我们现在研究的重点,我想大家可以研究一下“云机器人”。机器人与人,可以形似神不似,也可能神似形不似,当前应该更多研发的不是人型机器人,而是神似形不似的云机器人。

云机器人依托云计算优势,重在认知,体现在端设备上是感知和行动。先研发语言和图像丰富、认知复杂、动作相对简单的特定认知域的云机器人,如导航机器人,其智商和情商容易取得小众的共识。研发云机器人成为大数据认知的又一个突破口。

我从深圳买过两个扫地机器人,在家用了不到一个月就散了,但是我现在买了一个日本的一万多块钱的机器人,用了很长时间。

如果我们的语言、文本、歌曲、剧本可以通过虚拟形象变成形象、情感、动作、语音、语调、风格的话,我们还可以研究一个林志玲、郭德纲同台的导航板。

利用云+端的形态和深度学习,涌现出太多的云机器人雏形,它们和自然人相比神似形不似,太多的记忆认知和计算认知可从云上获得,当前的感知、交互、认知、行为控制和协调在端上,有自主学习和主动寻求帮助的能力,能够满足移动生活中的人群对特定领域工作的机器人的迫切需求。

假如我到这个机器人面前交流,我说:“我明天想买一部小米手机。”这个聊天机器人怎么回答?说:还是买进口的。你会大吃一惊。啊,这个机器人还知道小米是国产的。假如我说:“我明天想买一部小米手机。”机器人回答:“找你妈要钱去。”这是一个什么场景啊?我们搞自然语言理解和语音翻译的人,以前太多的重视了语法和语构,而忽视了语境和语用。

在云计算数据中心,用成千上万台的CPU+GPU服务器架构,通过大数据样本做混合的大规模深度学习的并行训练,可确定几十亿个参数的人工神经网络模型,用于语音识别、人脸识别等已经获得明显成效。

我个人认为深度学习实际上是一套灵活的、复杂而又简单的形式化模型框架,依靠不同深度的神经网络中的大量参数的确定去处理不同的问题,参数量可高达十几亿个,参数的精度靠大数据量训练得以保证,适合端到端的学习。

深度学习以卷积神经网络(CNN)为代表,相比早先的浅学习,它不但可以从局部到全局提取不同层次的特征参数,还可以利用卷积的微分性质通过改变卷积核在更高阶上提取特征参数,是抽象认知能力的提升,而不仅仅是神经网络的宽度——神经元数目的增加。

互联网、云计算、物联网和大数据可以有力支撑云机器人如何听说、如何看、如何想,而解决机器人如何动作的“智能制造2025”迎来了我国机器人的春天。我们希望我国的制造业赶快跨过3.0,走向4.0。

如果北京市80万个摄像头都变成“摄像头+固化芯片”,把路口简单的摄像头改成路口机器人交警,只要限号开车,压线就扣你分、罚你的款。产业界的朋友们,为什么不做这件事情呢?何况我们国家不是一个北京啊。如果我们把高德导航机器人变成一个聊天机器人,变成一个导游机器人多好啊。我们的汽车无人驾驶,你喝醉酒了,让机器人代驾。你不会开车,让机器人变成教练机器人,还可以做交通事故仲裁机器人。我们还可以做特种车辆服务机器人,所以我认为智能产业有着巨大的创新空间。

如果我们解决了驾驶问题,坐在车里可以享受移动生活,孩子们可以在移动的状态下跟高考辅导聊天机器人聊天,我们喜欢诗人汪国真,我们编个机器诗人汪国真,喜欢邓丽君的歌声,我们编个歌手邓丽君。也可以做手语交互机器人和痴呆症患者聊天的机器人。

如果这样做下去的话,我们的机器人虚拟教师,使得搞翻译的都会失业,真的机器人换人的时代到来了。

3大数据认知的实践
这一篇我就不讲了,8月28号我们要在郑州聚集7辆车,从郑州到开封做一次无人驾驶实验。我们利用导航设备和记忆认知实现了路口记忆,保证郑州到开封27个路口怎么过。有兴趣的朋友们,欢迎你们8月28号郑州相见。

我就讲这么多。

Q&A

:刚才你列举的这些领域里面,我们还需要做到?

李德毅:这个就是无人驾驶客车演示。好,你说。

:我们还需要做哪些工作才能收集到我们所需要的大数据?

李德毅:我就讲一讲我自己的体会吧。我家在北京市万寿路,万寿路有一个十字路口。几乎世界上没有两个路口是完全相同的,万寿路口对于我来说太熟悉了。一个人真正开着车,他这辆车80%的时间走在20%的道路上。所以对于我们来说,我们先把万寿路口的小数据解决。但是你知道一辆车是小数据,那么多辆车就是大数据了。所以我认为,对于大数据,还是要从小数据建立起。

:大数据的收集要有目的性的收集?

李德毅:对,这句话非常重要。

:刚刚你讲的机器人的事情,我有一点点不太认可。你说,把摄像头都变成机器人。但是有一个问题,这些机器人只能在数字化的虚拟里面发现问题,比如:有人闯红灯了,原来有交警是可以处理。但是现在只有机器人,是没有办法处理肇事车辆的。所以我们今天是不是过多的考虑虚拟的东西,而我们要进入到真实的世界,就像您刚才说的智能驾驶汽车这方面也需要加强。不知道您是怎么看这个问题。

李德毅:美国工程院有一篇文章,告诫科学家“要多做实践中的研究,少做研究中的实践。”我不认为机器人仅仅是做虚拟的数据。现在的问题是,你要用周边的大数据,这些大数据是生动活泼的大数据。我刚才讲把一个摄像头换成一个交警机器人,我是说作为一个特定问题的交警,仅仅观察压线和车牌号。如果解决了一个特定问题,两个特定问题,三个特定问题,解决了千千万万个特定问题之后,再通过云技术、物联网加在一起,这些人的综合也许可以变成一个人工生物脑的智能。

:如果过马路是用机器人反应的话,是非常慢的,会不会有撞车的可能性。

李德毅:智能车当今很红火。我现在正在做一个“智能驾驶评估”:1.智能车电磁频谱兼容性评估。2.智能车架构开放性评估。3.模块的独立性评估。4.驾驶智能鲁棒性评估。5.人机交互友好性评估。6.智能车自学习能力评估。

原文发布时间为:2015-08-15

时间: 2024-09-10 21:09:23

院士李德毅:大数据认知(演讲全文)的相关文章

中国工程院院士李德毅:大数据时代的认知计算

摘要: MDCC 2013移动开发者大会于2013年11月13-14日在北京国家会议中心隆重召开,本届大会由CSDN和创新工场联合主办.逾百位国内外移动互联网领域的领军人物与核心技术专家,以全民移动,重 MDCC 2013移动开发者大会于2013年11月13-14日在北京国家会议中心隆重召开,本届大会由CSDN和创新工场联合主办.逾百位国内外移动互联网领域的领军人物与核心技术专家,以"全民移动,重塑世界"为主题,分享最新实践经验,探讨移动互联网发展趋势.此外,智能硬件.移动娱乐游戏.微

工程院院士李德毅:数据挖掘就是云环境下的搜索服务

ZDNET至顶网CIO与应用频道 05月21日 北京报道(文/羽飞):在今天上午举行的第六届中国云计算大会上,中国工程院院士李德毅分享一些对云计算与大数据的认识和看法,他表示,大数据标志着一个新时代的到来,这个时代的特征不只是追求物质资源,也不只是互联网带来的信息服务,同时还包含数据资源的价值挖掘与价值转换,以及由大数据挖掘带来的精神与文化方面的崭新现象. 李德毅认为,在现今时代人们通常所说的大数据主要包括三个来源:第一,地球上的自然环境:第二,生命数据:第三,社交大数据,这些数据普遍存在于人们

中国工程院院士李德毅畅想云计算时代

中国工程院院士李德毅 "20年内电脑将淡出百姓日常生活" 什么是云计算?李德毅做了一个形象的比喻---钱庄.最早人们把钱放在枕头底下,后来有了钱庄,很安全,不过兑现起来比较麻烦,现在的银行可以到任何一个网点(或者ATM)取钱,甚至到国外也没问题.用一句时髦的话,大家可以管这种银行提供现金的方式叫"云现金". "20年内,电脑就会渐渐远离老百姓的日常生活.人们只需携带类似手机的端设备,就可实现目前电脑所具备的功能."李德毅说,云计算有很好的商业模式

院士李德毅:云计算再认识(56PPT+演讲全文)

静点评:李德毅院士的报告题目为<云计算再认识>,他在报告中回顾了过去历届云计算大会上认知,首次提出云计算的天梯概念.李德毅认为从图灵计算到网络计算,云计算的交互性远远超出图灵机,互联网不是一台虚拟的图灵机,交互导致众包.众挖和群体智能.他在PPT中形象地画出了实现云计算的7级天梯:光网宽带.移动宽带.互联网.云计算.物联网.大数据.人工智能,他说这座构想中的理想天梯是信息社会美好的未来,我们IT领域天梯须自强,才能不负重望,把"互联网+"承担起来.李德毅院士还说今年要创新开

CCAI 2017 | 中国工程院院士李德毅:L3的挑战与量产

在本次大会上,中国工程院院士.中国人工智能学会理事长李德毅为所有参会者带来了主题为<L3 的挑战与量产>的报告.从"L3 难在哪里?"."如何突破 L2 的天花板?"."量产 L3 的策略"三个方面出发,重点讨论了当前 L3 自动驾驶汽车所面临的挑战以及量产问题,精彩绝伦的演讲在现场引起了强烈的共鸣以及多次热烈的掌声. 中国工程院院士.中国人工智能学会理事长李德毅 在此次演讲中,李德毅院士谈到了L3级别自动驾驶的难点,以及从L2向L3

工程院院士李德毅:汽车正在被软件所改变

 5月18日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会在北京国家会议中心举办,中国工程院院士.中国电子学会云计算专家委员会名誉主任委员.中国大数据专家委员会顾问李德毅针对智能驾驶领域方面与与会嘉宾进行了分享. 李德毅在分享中表示:"汽车成为软件定义的机器,实现了自动驾驶,汽车,曾经被称之为改变了世界的机器正在被软件所改变.今天机器人通过大量深度学习,终于可以聪明到足以改写程序中的参数量.人工智能核心不仅仅是算法更是学习,在大数据环境下充分发挥大数据碎片化认知,客观形式的认知难度,

中国工程院院士李德毅:智能车产业化实践与展望

雷锋网(公众号:雷锋网)按:原文发布于机器人圈公众号,在未改变原意的基础上略有删减.李德毅,中国工程院院士.欧亚科学院院士,指挥自动化和人工智能专家.1983年获英国爱丁堡海里奥特·瓦特大学博士学位.总参第61研究所研究员.中国指挥和控制学会名誉理事长.中国人工智能学会理事长. 李德毅,人工智能领域响当当的泰斗.作为自动化和人工智能专家,李院士对智能车产业的生态环境.工程化实践与未来发展有自己别具一格的看法,他反复提及智能车和轮式机器人的自主知识产权与国产化.就像李院士自己说的: 虽然个人力量有

中国工程院院士李德毅受聘云基地顾问

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; "云计算的生命力在于细分市场需求,从一个一个业务领域的服务切入."2月16日下午,中国工程院院士.云计算专家委员主任委员李德毅院士莅临北京云基地,并为云基地题词.在北京云基地,宽带资本董事长田溯宁与李院士就云计算产业现状和发展趋势进行了深入交流,田溯宁邀请李院士成为云基地的专家董事,并授予李院士"云基地专家顾问"证书. 李德毅

李德毅院士:再大的数据也能绕过那道弯

中国电子学会云计算专家委员会名誉主任委员.中国大数据专家委员会顾问.中国工程院院士李德毅 在5月21日的第六届中国云计算大会上,李院士的演讲信息量极大,纵观科技发展几十年的历史,细数其中代表人物(居然其中还提到了歌星那英,WHY?).演讲到底有多精彩?看看李院士演讲后,火爆的新书签售现场就知道了,排队购书等着李院士签名的人足有50多米,组委会动用数名保安维持秩序,更令人惊奇的是签售的书是<不确定性人工智能>,这么高大上的书可不是每个人都能看懂的啊! 闲言少叙,请看演讲实录: 文字:基于CSDN