李德毅院士:大数据认知

认知科学跟人工智能是什么关系?我们争取在这个问题得到一些认识。

一、大数据认知的方法学

人工智能最重要的就是知识表示,或者叫知识认知的形式化。我们有一个教授做一个很有意思的工作,把李白的所有诗1001首碎片化,变成了小数据。通过这个例子告诉大家,数字是不同于物质和能量之外的人类的资产,数据就是新时代的石油。

小米雷军的英语大家笑。笑什么呢?语法是对的,语境不对。我在10几年前曾经带过一个学生,做过一个“野蛮翻译”的硕士论文。大数据的认知方法告诉我们,要重新思考是先有语言学还是先有语言,翻译问题能不能形式化?我是83年在英国拿到博士学位,84年被邀请到日本研究古埃及的语言。

谷歌的成功主要是大数据下的搜索引擎和排序算法,充分利用了群体智能的数据。各种语言之间的转换服务,每天超过10亿次,使用人数每月超过5亿人。谷歌眼镜可用7种语言对图表或菜单进行即刻的逼真翻译。为什么可以做到这样?对话模式由32种语言的翻译机器人来回沟通,大数据造就了高度准确的自动实时翻译和自学习。这一点是值得我们人工智能学者深思的。

我们一直喜欢用DNA检测,将来人连识别、说话人识别,可以变得如此方便。我们用科大讯飞的语音解说中国人工智能大会,我们发现一个已经退休了的李瑞英女士在为我们做广播。

这就是大数据的力量。

所以从大数据的成功运用反思日本五代机的失败,值得我们思考。今年IEEE国际数据工程大会上有一个很大的争论终于得到的回答,是继续构建通用数据库系统,还是构建特定负载面向特定目标的系统?作者支持后者,所以我们一定要把大数据的资产用好。我们要不但享受互联网带来的方便,还要包含区别于物质的数据资源的价值发现和价值转换,这里面人工智能起着很大的作用。

大数据已经成为网络时代人类社会的重要资产,今天,移动互联网支撑的手机可以低价或者免费,如小米手机:明天,物联网支撑的空调机、电视机是否可以低价或者免费?后天,家装、家居、汽车、家庭服务机器人等是否可以低价或者出租或者免费?为什么一个人要买一个车呢?有的人一个人还买两部车,多占地方啊?

手机、电视机、汽车和聊天机器人等作为传感器,为互联网商提供源源不断的大数据资产。大数据本身,既不是科学也不是技术,是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,以三个数据级的阶梯迅速发展。

聚类是大数据使用的一个突破口。我觉得我们要研究聚类。

人类走过了几千年的实验科学,几百年的理论科学、几十年的计算科学之后,迎来了数据密集型科学的新时代。对于老一辈科学家来说,大数据的挑战对于科学里面的震撼是地动山摇的。这么大数据不应用,怎么办?

我们是个产业会,智能产业论坛。我们讲一个保险公司在大数据面前,应该怎样改变他的运行方式?保险,尤其是车险,传统的是分为ABCD类。经常出车祸,保险费就要高一些。

但是随着汽车成为双驾双控轮式机器人,成为大数据发生器以后,每一次驾驶,每一次维修,每一次行程,甚至每一次刹车,都记录在案,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低、不勤开车的特定客户,给予更大优惠,而对风险太高的客户报高价甚至拒绝。大数据聚类成为保险公司的核心竞争力,精细化的为个性化服务。

刷脸是人的身份识别的一个方法,人们要求要识别这张脸。奥巴马这张脸从几何结构上分成1-10个尺寸的话,这样的翻译方式做起来太繁琐,所以我们做云计算的时候是去ROE时代。结构化人脸大数据聚类的局限性,本质上仅仅是几何结构的聚类及忽略了聚类的不确定性、多样性、过程中简单的群体交互性、据类样本的可获得性,结果的评价标准、群体认知的共性,尤其是表情、年龄、肤色、基因、性别、因缘等太多因素。所以我说,智能产业界的朋友们,如果你们能够把一个全家福里面找到儿媳妇或者女婿来,我觉得这个产业就能赚钱。网上一大堆全家福,哪一个是儿媳妇,哪一个是女婿能找出来吗?

如果说几千年、几百年、几十年的科学主要靠天才归纳而成的话,那叫大定律、大模型、小数据。我记得我大学毕业把我分在哪儿呢?外部设备组,就是做输入输出。现在改叫交互,后来又进一步改了叫沟通。我认为大数据给我们提出一个新的形式化的认知学方法,就是小模型、大数据。模型要围绕数据转,所以我说:这个改变是地动山摇的。

公理、模型、程序要围绕数据传,形成数据定义的系统。

所谓“创新”在大数据时代就是要靠数据说话,要更多的依赖大数据,这些数据常常是交叉的,因此体现在交叉理论框架下建立的。如果说物理学和化学是传统科学,也许我们可以研究物理化学,那里更有可创新的地方。要学会理解程序和模型怎么围绕数据转,要研究基于统计的可变视角和可变尺度。

二、云机器人认知

今天透露一个我个人的学术观点,我们现在研究的重点,我想大家可以研究一下“云机器人”。机器人与人,可以形似神不似,也可能神似形不似,当前应该更多研发的不是人型机器人,而是神似形不类的云机器人。

云机器人依托云技术优势,重认知,体现在端设备上是感知和行动。先研发预言和图象丰富、认知复杂、动作相对简单的特定认知域的云机器人,如导航机器人,其智商和情商容易取得小众的共识。研发云机器人成为大数据认知的又一个突破口。

我在深圳买过两个扫地机器人,到家用了不到一个月就散了,但是我现在买了一个日本的一万多块钱的,用了很长时间。

如果我们的语言、文本、歌曲、剧本可以通过虚拟形象变成形象、情感、动作、语音、语调、风格的话,我们还可以研究一个林志玲、郭德纲同台的导航板。

利用云+端的形态和深度学习,涌现出太多的云机器人雏形,它们和自然人相比神似形不似,太多的记忆认知和计算认知可从云上获得,当前的感知、交互、认知、行为控制和协调在端上,有自主学习和主动寻求帮助的能力,能够满足移动生活中的人群对特定领域工作的机器人的迫切需求。

假如我人到这个机器人面前参观了,我说:“我明天想买一部小米手机。”这个聊天机器人怎么讲?说:还是买进口的。你会大吃一惊。啊,这个机器人还知道小米是国产的。假如人说:“我明天想买一部小米手机。”机器人回答:“找你妈要钱去。”这是一个什么场景啊?我们搞自然语音理解和语音翻译的人,以前太多的重视了语法和语构,我们忽视了语境和语用。

在云计算数据中心,用成千上万台的CPU+GPU服务器架构,通过大数据样本做混合的大规模深度学习的并行训练,可确定几十亿个参数的人工神经。成为人工智能又一大亮点。我认为深度学习吸收了云计算和大数据的红利。

我个人认为深度学习实际上是一套灵活的、复杂而又简单的形式化模型框架,依靠不同深度的神经网络中的大量参数的确定去处理不同的问题,参数量可高达十几亿个,参数的精度靠大数据量训练得以保证,适合端到端的学习。

深度学习以卷积神经网络(CNN)为代表,相比早先的浅学习,它不但可以从局部到全局提取不同层次的特征参数,还可以利用卷积的微分性质通过改变卷积核在更高阶上提取特征参数,是抽象认知能力的提升,而不仅仅是神经网络的宽度——神经元数目的增加。

FT跟GT卷积的微分等于其中一个函数的微分跟另一个函数的卷积,因此对于原始图象的微分就很难。

互联网、云计算、物联网和大数据可以有力支撑云机器人如何听说、如何看、如何想,而解决机器人如何动作的“智能制造2025”迎来了我国机器人的春天。我们希望我国的制造业在赶快跨过3.0,走向4.0。

如果北京市80万个摄象头都变成“摄象头+固化芯片”,把路口简单的摄象头改成路口机器人交警,只要限号开车,压线就扣你分、罚你的款。产业界的朋友们,为什么不做这件事情呢?何况我们国家不是一个北京啊。如果我们把高德导航机器人变成一个聊天机器人,变成一个导游机器人多好啊。我们的汽车无人驾驶,你喝醉酒了,让机器人代驾。你不会开车,让机器人变成教练机器人,还可以做交通事故仲裁机器人。我们还可以做特种车辆服务机器人,所以我认为智能产业有着巨大的创新空间。

如果我们解决了驾驶问题,坐在车里可以享受移动生活,孩子们可以在移动的状态下跟高考辅导聊天机器人聊天,我们喜欢诗人汪国真,我们编个机器诗人汪国真,喜欢邓丽君的歌声,我们编个歌手邓丽君。手语交互机器人和痴呆症患者聊天的机器人。

如果这样做下去的话,我们的机器人虚拟教师,搞翻译的都会失业,真的机器人换人的时代到来了。

三、大数据认知的实践

这一篇我就不讲了,8月28号我们要在郑州集聚7辆车,从郑州到开封做一次无人驾驶实验。我们利用导航设备和记忆认知实现了路口的记忆,保证郑州到开封27个路口怎么过。我们想做一次实验,有兴趣的朋友们,欢迎你们8月20几号郑州相见。

我就讲这么多。

本文来源于"中国人工智能学会",原文发表时间"2015-08-14 "

时间: 2024-09-20 01:10:26

李德毅院士:大数据认知的相关文章

院士李德毅:大数据认知(演讲全文)

导读:李德毅院士通过介绍作诗.语言翻译.语音识别.保险.人脸识别,深入浅出地阐述了大数据认知的方法学.大数据标志数据密集型科学的新时代的到来,大数据时代是小模型.小定律.交叉学科的时代.大数据认知的突破口在于聚类.提倡利用云加端的形态和深度学习,研究制造神似形不似的云机器人.介绍了驾驶服务云机器人.语言机器人,提倡研发机器驾驶脑,展示了无人驾驶客车的研究成果,介绍了团队正在进行的智能车的六类试验与评估,倡导研究者做实践中的研究,少做研究中的实践. 2015年8月14日,由中国科协.中国科学院指导

CAAI演讲实录丨李德毅院士:交互认知——从图灵测试的漏洞谈开去

8月26日至27日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会发起主办.中科院自动化研究所与CSDN共同承办的2016中国人工智能大会(CCAI 2016)在北京辽宁大厦盛大召开,这也是本年度国内人工智能领域规模最大.规格最高的学术和技术盛会,对于我国人工智能领域的研究及应用发展有着极大的推进作用. 27日上午的第一个主题报告,是中国工程院院士.中国人工智能学会理事长李德毅的<交互认知--从图灵测试的漏洞谈开去>.李德毅院士首先从图灵测试在面对自闭症的情形.手机交互认知.教育的

李德毅院士:脑认知的形式化

摘要:李德毅院士认为,脑认知的内涵包括记忆力.计算认知和交互认知.计算固然重要,记忆更重要.脑认知的本质是统计认知,多次反复在感知.认知.行动过程中形成不确定性,动态演化过程从时间上看是积分,就变成记忆. 为了更好地引导和推动我国人工智能领域的发展,由中国人工智能学会发起主办,CSDN承办的2015中国人工智能大会(CCAI 2015)于7月26-27日在北京友谊宾馆召开.本次会议的主旨是创办国内人工智能领域规模最大.规格最高的高水平学术和技术盛会,汇聚国内外顶级的专家学者及产业界人士,围绕当前

中国工程院院士李德毅:大数据时代的认知计算

摘要: MDCC 2013移动开发者大会于2013年11月13-14日在北京国家会议中心隆重召开,本届大会由CSDN和创新工场联合主办.逾百位国内外移动互联网领域的领军人物与核心技术专家,以全民移动,重 MDCC 2013移动开发者大会于2013年11月13-14日在北京国家会议中心隆重召开,本届大会由CSDN和创新工场联合主办.逾百位国内外移动互联网领域的领军人物与核心技术专家,以"全民移动,重塑世界"为主题,分享最新实践经验,探讨移动互联网发展趋势.此外,智能硬件.移动娱乐游戏.微

【智驾深谈】李德毅院士:深度学习将成为智能驾驶的新维度

上期智驾深谈聊到智驾三层次:感知层.认知层和行动层. 实际上感知层面上,无论车道线.交通标志还是车辆识别,都已经大规模采用了深度学习技术:行动层由于汽车工业百年的发展和积淀,已经可以很好地由现代控制理论解决:所以就剩下认知层,还真是个大号的硬钉子. 一个好的认知模型需要对环境有精准的理解和预判,还需要据此做出下一步的决策和规划,这里面的挑战就是复杂的动态交通环境.在深度学习出现之前,很难有一个模型能够很好地对此建模.预测和决策.而李德毅院士的工作,就聚焦在利用深度学习技术,解决智能驾驶中认知的问

CCAI 2017 | 李德毅院士现场致辞:中国人工智能步入新阶段

大会开场由中国工程院院士.中国人工智能学会理事长李德毅院士首先发言,李院士的致辞全文如下: 人工智能界的各位同行.行内各位朋友们,各位到会的朋友们,我们非常高兴在这里一同参加中国人工智能大会. 中国人工智能发展迅速,大家刚刚看到国务院印发了人工智能发展规划.我想我们选择这个好时候开这个会,体现了我们人工智能学会和我们杭州对人工智能的浓厚兴趣,以及政府.学界.企业对此的大力推动. 人工智能正在改变着人类社会的生活,改变着整个世界.为了抢抓人工智能发展的机遇,构建我国人工智能的发展优势,加快建设创新

李德毅院士:再大的数据也能绕过那道弯

中国电子学会云计算专家委员会名誉主任委员.中国大数据专家委员会顾问.中国工程院院士李德毅 在5月21日的第六届中国云计算大会上,李院士的演讲信息量极大,纵观科技发展几十年的历史,细数其中代表人物(居然其中还提到了歌星那英,WHY?).演讲到底有多精彩?看看李院士演讲后,火爆的新书签售现场就知道了,排队购书等着李院士签名的人足有50多米,组委会动用数名保安维持秩序,更令人惊奇的是签售的书是<不确定性人工智能>,这么高大上的书可不是每个人都能看懂的啊! 闲言少叙,请看演讲实录: 文字:基于CSDN

李德毅院士:互联网不要自我感觉太良好

摘要: 本文是中国工程院院士李德毅在上周百度无人驾驶研讨会上的主题发言摘编.省略了一些技术细节的描述,为了突出逻辑关系对内容顺序进行了调整,为了用户的阅读体验使用了一些更 本文是中国工程院院士李德毅在上周百度无人驾驶研讨会上的主题发言摘编.省略了一些技术细节的描述,为了突出逻辑关系对内容顺序进行了调整,为了用户的阅读体验使用了一些更现代的的表达方式. 李德毅是自动化和AI科学家,他的主题演讲从科研人员的角度阐述了对无人驾驶汽车技术的思考,提出了双驾双控,整车信息化的渐进技术路线.他和百度IDL常

CCAI 2017 | 中国工程院院士李德毅:L3的挑战与量产

在本次大会上,中国工程院院士.中国人工智能学会理事长李德毅为所有参会者带来了主题为<L3 的挑战与量产>的报告.从"L3 难在哪里?"."如何突破 L2 的天花板?"."量产 L3 的策略"三个方面出发,重点讨论了当前 L3 自动驾驶汽车所面临的挑战以及量产问题,精彩绝伦的演讲在现场引起了强烈的共鸣以及多次热烈的掌声. 中国工程院院士.中国人工智能学会理事长李德毅 在此次演讲中,李德毅院士谈到了L3级别自动驾驶的难点,以及从L2向L3