演讲全文:
各位晚上好,非常高兴又有机会到FIT大楼的二层多功能厅跟大家做“人工智能和大数据”创新研究的交流。清华大学数据研究院在这方面做了大量的工作,成绩卓著。今天这个交流我准备重点谈谈自己对人工智能、大数据的一些理解。
人机大战AlphaGo以4:1取得胜利引起了很多议论,不同的人对此有不同的思考。其中从事人工智能研究的科技人员的动向不能忽视,人工智已经进入了一个新的阶段,国家现在提倡“创新”,光有技术上的研究热情是不够的。
什么是人工智能的门道?
从某种意义上来说,人工智能系统就是人类主体所寄予的希望。智能表现在:
一、能够达到主体的目的——解决问题,这是一个标志;
二、这个行为不要破坏环境的客观规律。
什么叫人工智能?“人工智能系统就是实现信息转换与智能创生的机器系统”。这是人工智能系统的功能模型,是一个宏观的模型,是一个本质的模型。
智慧有两部分,两部分既互相联系、又互相补充,有机的联系在一起,成为人类智慧的整体。智慧和智能是不一样的,“慧”是认识事物的能力,“能”是解决问题的能力。我们把显性智慧叫做智能,这种人工智能的概念跟信息转化与智能创生是相通的。隐性智慧只给三样东西,问题、目标、知识。所以显而易见,人工智能离不开人。
机器可以获得显性智慧并模拟人类的智能,但是很难具备隐性智慧,这就是它“不能”的原因。另一方面,人工智能机器可以比人类更厉害的去完成工作,这是它“能”的原因。人工智能系统的应用前景一定是面向问题或者面向某些问题的领域,不要妄想追求一个通用问题的求解。
三个学派都有其一定的道理,也有其辉煌的成果。然而现状是这三条研究思路未能形成合力。大家都研究人工智能,为什么这三个思路走不到一起?《系统论》告诉我们,系统的功能远远要强于部分功能的和,这个趋势说明了——应该走向统一。
“生态演化论”最要紧的不是具体的结构,也不是具体的功能,更不是具体的行为,而是这个系统的运转机制。它为什么会有智能?产生智能策略的机制是什么?具体的机制怎么表现?机制在于信息、知识、智能三者之间的转换,这是机制的灵魂。
主体产生的感知信息来自于客体信息,然而感知信息并不是客体信息,因为这个过程中有主体因素、感知因素的加入。感知信息比客体信息更复杂,内涵更丰富。传感器产生的信息就不是这里讲的感知信息,它没有感知的内涵。语法、语意、语用三个为一体是感知信息,其它的是语法信息。
通过信息认知它们的本质,这是“知识”。通过认识的活动、处理得到知识,这叫“认知”,会存储在知识库里面。还要想办法利用信息和知识以及目的生成智能策略,智能策略经过执行机构才会产生智能行为。
人工智能就是按照这样的模型去实现的一个机器系统,这是中国人对人工智能的发展,与结构模拟、功能模拟、行为模拟大不一样。
感知信息比现在所理解的信息复杂,有语法信息、语义信息、语用信息。语法信息是形态的描述。语用信息是对我们的利害关系、目标的描述。
语义信息是内容、意思。通过这个模型可以看出语义信息它有严格的定义(映射+命名),有很具体的生成方法和原理,原理里面的每一项都能够用今天的技术实现出来。大家关心的是它的内容,绝不是只关心它的形式,这个内容就是语义信息。
人工神经网络:一切人工神经网络要得到网络的加权,要得到它的知识一定要通过大量的样本去学习、训练得到连接权。
物理符号系统:它是规范性知识,现流行称专家系统,目标是无穷大通用物理符号系统。所以实际有用的是专家系统,专家系统要有专家知识。
感知动作系统:有智能的机器人会回应你,这是刺激——响应,把常识性知识通过编码输入到知识库里面。
在机制主义人工智能框架里,A、B、C型不只是特例,A型可以转化为B型,A、B型可以转化为C型。因为经验性知识可以提炼成规范性知识,这两种知识可以普及沉淀成常识性知识。
它们是相通的,三大学派互不认可的局面就不复存在。这是研究高等人工智能--研究情感、意识、理智,机制主义可以解决这个问题。
这个模型告诉我们,机制主义是一个恒定的规律。
按照这个定律,原始的东西转换以后才能得到知识、策略。转换结果不再关注守恒不变的那些东西,而成为关注解决问题的智能。三者并驾齐驱,三位一体,形成物质、能量、信息三大领域的三个定律。
前面讲信息爆炸,今天讲数据爆炸,这两个东西有没有关系?为什么有这两个爆炸?这其实是没把概念搞清楚。我认为我们要要冷静下来,把这些概念搞清楚,抓住它的本质和要害进行深入研究。
大数据的技术实际上是人工智能技术。有四个“V”,第一个Value,有价值;第二个Volume,有价值且容量大;第三个Velocity,每秒的速度很快;第四个Variety,种类繁多。所以什么叫做大数据?现在我们所拥有的信息技术处理不了的数据。对数据丢弃、忽略、过滤,这是第一步要做的。
物联网要有传感器,要感知外界事物的状态、信息,这是“知”。我们需要知道这个物的状态,但更重要的是知道后要调解它,所以要生成策略。由策略控制这个物,这才是真正的物联网,又监又控。
这个工具被高度智能化的劳动者所掌握、驾驭、使用,用来解决各种各样的问题,去应付各种各样的对象,三位一体,形成智能化的社会生产力。从这个模型来看,科学技术主要体现在成果。随着它的进步人也要进步,智能化的人驾驭智能化的工具,以智能化的水平解决各种问题,这就是智能化的社会生产力的状况,它的应用范围是无处不在的。
这样一来,大数据就比较容易去理解和研究了。以上很多都是个人观点,这里面有创新的部分,但是也可能跟大家的理解有碰撞和冒犯的地方,如果不对请大家多多批评。谢谢大家!
互动环节
提问1:我们现在一般认为人工智能是学计算机方向做的事情,您的演讲给人感觉也要有信息论方面的背景,您的研究中有用到这样的研究方式吗?您是怎么把信息论和人工智能结合起来做研究的?以及您认为现在人工智能的兴起对于我们做信息论的来说是机遇还是挑战?如果是机遇应该怎么把握?是挑战应该怎样应对?
钟义信:智能是整个信息过程的高端,信息是原材料,最终最有用的是智能。智能跟信息是一体化的,有信息论的基础去研究人工智能会很好。我们利用先头的信息论为基础扩展变成全信息理论,然后去研究人工智能,这样可能做出新的贡献,也能对人工智能提出新的思考,得到一些新的结果。这个既是挑战,也是一个创新的机会。
提问2:我现在在公司里面做数据挖掘。我比较感兴趣数决挖掘方面的一些动态。
钟义信:如果从信息转换角度看数据挖掘,它本身就是一个转换,所以我觉得这个领域是非常重要的,人工智能当中没有它不行。挖掘就希望挖掘出知识来,这个知识是产生智能的一个非常重要的前提。我觉得如果能找出这个转换的基本规律,就可以回避掉数据挖掘中的一个严重问题。现在数据挖掘发展很快,成果也很多,但是它的问题在于没有提高到一个普遍的挖掘方法和挖掘原理的高度上,或者说转换原理和转换方法的高度上。因为数据挖掘都是针对具体数据库来做的,技术性比较强,而理论性的共性方面还不够,所以这里面有很大创新的潜力。
我刚才讲到大数据跟人工智能、信息科学互相之间的关系,其实背后最重要的一句话就是——我们大家是一家人。这是我要讲的心里话。
原文发布时间为:2017-03-24