5月19日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会进入第二日程,第四范式首席科学家、机器学习领域国际学术带头人、香港科技大学教授杨强在现场带来了“AI For Everyone”的主题演讲。
杨强表示,“我们所说的强人工智能和超级人工智能,实际上并不是我们需要害怕的东西,我们需要害怕的东西是我们的技术,一定需要大数据,但是我们本身又没有大数据这样的红利。相反我们要发展的技术是这样的,把知识迁移到身上,短时间通过小数据能够学习、能够成长,如果我们有能力把大数据的模型迁移到我们每一个人身上,我们也使得我们每一个人都能够享受到这样的人工智能红利。”
以下是杨强演讲实录:(以下内容根据现场速记整理,未经发言嘉宾确认,仅供参考,谢绝转载。)
大家好,我是香港科技大学的。
今天我们有人工智能的技术,我们大家都为它的成就欢呼,但是我们手边,我们是不是人人已经享受到人工智能的红利呢?我们带着这问题来回顾一下人工智能的发展历程。首先我们要看人工智能的起始是要感谢这位思想的先驱图灵,他问的一个问题就是机器可以思维吗?我们今天的努力,也是跟很多前人的铺垫是分不开的。有哪些努力呢?我们可以看一下,从50年代开始,大家就在做各种假设,提出各种问题,毕竟一开始的时候,大家总是非常的乐观,认为一下子就可以解决,但还是提出了很多关键性的问题,比如说机器可以学习吗?机器可以规划吗?机器可以推理吗?等等。
比方说我们把老专家的一些思考、一些思维和知识给它迁移到计算机里面。但是后来发现这个过程实际上是非常非常艰难的,因为把知识描述出来,把知识表达出来,把知识学习出来,并不是那么简单的事。
在这个过程当中呢,也有很多的努力,在不断的积累,比方说IBM为首的服务器的制造商,在1990年代就在象棋领域就把人类的冠军给打败了,这个也是一个里程碑。这说明什么呢?说明要取得人工智能是离不开计算能力,同时机器学习的研究者也取得了很大的进展,总而言之有很多的努力,这些努力被圈在实验室里。这个就总结一下,在人工智能就是AI For No One其实很强的原因是数据量的不足,也是因为当时并没有这么便利的云计算,能够帮助我们收集这么大的数据,比方说利用群体智能、群体智慧、手机、网络等等之类来聚集大量的数据。到了今天人工智能活起来,有几个原因,第一个原因确实汇聚了很多的数据,可以想象谷歌公司,还有国内的互联网公司,都汇聚了这样很多大数据。今天的计算能力是突飞猛进的。第三是今天的算法,有很大得逞就。像深度学习、像强化学习等等之类的。这样我们有目共睹的成就,比方说可以做机器的同声翻译,我们可以做非常好的人脸识别,使得我们基于图像的搜索就变的非常便利,这个也是感谢科学家的努力,我们对图片还要进行标注,这还要发动广大的群众来进行标注,我们系统可以做的聪明一点,来识别哪些标注,所以这比赛最后就导致了深度学习算法的非常大的成功,比方说就提高准确率方面,提高至少10%,从不能用的阶段到可用的阶段。
同时深度学习模型,作为一个辨别性的模型,它也可以转化成一个生成模型,比方说现在我们看到这个图,就是谷歌训练好的图片识别性转化成生成器,这是像深度学习描绘那些印象最深得情景,机器潜意识怎么回事。斯坦福的科学家就可以面对这样的图片去问一些自然语言的问题,用文字来问问题,在图片里面得到答案,再用文字来回答。我们可以拿一个著名画家就是印象派,我们把这图片变成印象派这也可以做,这就深度学习帮我们做了。我们看今年的阿尔法狗今年非常火,KGS让网上对议围棋的网站,经过十几年的积累,它已经积累了非常非常多的棋谱,这个里面通过可以产生3千万的盘面来训练,没有这个也没有阿尔法狗。所以呢我们说云计算一定是人工智能的前提,尤其在今天。第二个例子我们看到IBM我们知道在2011年击败了电视节目的世界冠军,它应该鸣谢谁呢?就是在网上有很多的知识这个知识也是很多人积累努力的结果。
所以这里不妨做一个比喻,人工智能是怎么产生的?这个能力要感谢两个事,一个是生米一样,还没有变成熟饭,但是把它做熟是感谢人工智能,从互联网到人工智能的转变,我们看到这些成功还是集中在大公司提供了一个思考的起点,对于其他的领域,这些领域没有大数据,我们应该怎么办呢?人工智能是不是对他们就没有作用了呢?他们是不是就没有能够享受到人工智能的红利呢?比方说在生物信息领域,我们知道可以获得很大的一个数据,这个数据是单条的基因链,或者是蛋白质链。但是我们把它和人的行为对应起来,这样的数据,确实是少之又少,往往在生物信息领域能够得到几千条样本已经是相当不错了。这个和图像识别里面上千万个样本,那简直就没法比的。所以深度学习到今天对于生物信息领域的大部分数据还是没有用的。
再举一个例子呢,是教育领域,到现在积累大量的数据,所以我们再回来看,刚刚讲的这些红利,实际上大部分的企业是没有办法享用,这就为我们带来一个问题,我们应该怎么办?总结一下到今天的这些成就,也仅仅是AI For No One,对某些人,对某些富人、对某些具有大数据的人工智能是有用,但是对于我们大部分的人,我们只能旁观。当然我们的志向尤其是做研究,让所有的人都能享受到这样的红利,因此我们在研究所,我们在学校,应该做什么样的工作?能够使得这一件事发生呢?我们在讲这些技术之前,我先来回顾一下,对人工智能的恐惧,我们在过去我们是靠走路,现在变成骑马,甚至有汽车,因此人工智能为我们带来的红利也就使得我们人能够能力变成扩大,我们人的能力变成更有能力。这样的话,而使我们每一个人变的更加强大,基于这样一个观点,我们希望所有的人都能够享受到人工智能带来的好处,每个人都有一匹马,每一个人都有一辆车,这样就是AI For No One。我们怎么能够让这个事发展呢?结合我们自己的研究。机器越来越强让每一个人都享受这样的红利。
所以总结起来我们看到18世纪发展了工业大革命,通过资本来使得某一些资本家变的越来越强大,穷的越来越穷,富的越来越富。我们不希望看到这样的现象发展,今天这革命其实也有这样的危险,就是智能革命,实际上数据是资本,数据是石油。有数据的人能够提供越来越多的服务,他也就能够得到更多的数据。会不会形成一些智能寡头呢?这个我们认为才是对人类最大的危险,并不是人工智能本身,而是这种数据的现象就像金融发生的一些,这里我要特别提我们确实在做努力,其中一个努力是迁移学习,比方说右边这里是一个著名的心理学家,他做了一个实验,使得新的领域学习效率大大提高,这为我们提了一个什么启发呢?如果我们在计算机也能做到迁移,就可以使得在数据少的情况下,数据一定的情况下,我们的效率能够提高,并且在效果一定的情况下,我们用的数据就不用那么多,也就是说我们遇到一个新的领域,我们如果有能力,把一个过去的模型迁移到新的领域,我们在新的领域并不需要那么多的数据,所以小数据也可以享受人工智能的福利。比方说我们在推荐的领域,像在刚才这一位讲,京东、阿里,像国外的亚马逊,大量的推荐任务,如果有一个新的领域,我们没有很多新的数据,这个问题在推荐领域叫冷启动问题,解决冷启动的方法,就是过去大数据建好的模型,来把它迁移到一个新的领域,使得新的领域,只要得到少数的数据,也可以工作的很好,这些实验我们都做过。
同时我们可以让机器去读一些文字,把这些知识给变成能够对图像有用的知识,这样知识就可以在不同的表达之间做迁移。我们做了一个是研究说明也让机器读多少文字,它就可以来帮助你识别图像足够好呢,我们就发现其实就相当于我们经常说的那一句话,一幅图片,相当于一千个字,所以这个我们也通过这实验来加以证实,也就是说书并不需要无限的读下去,这对于大部分学生来说这是一个好消息。
这里我就要提到现在很热的另外一个领域,就是穿戴式智能硬件,我们知道穿戴式是非常酷的,但是如果它不提供足够的服务,有一天它也会败落下去。这些服务来自于哪里呢?来自于对数据的解释,我们一个人戴了一个手环,我们这个人在走、还是在睡觉、还是在吃饭。如果这手环背后的云没有办法来识别,它就不能够提供对应的服务。但是如果需要来识别,它就需要有一个足够好的模型,这个模型我们可以通过迁移学习来得到,比方说我们在一个领域,我们已经收集了很多女孩做咖啡的数据,我们就可以把这样的数据给迁移到老人在做茶,不需要很多的做茶的数据,我们就可以做一个很好的模型,这实验我们也做了通过MIT收集的数据,是相当的成功。
我们还做了一些比较有趣的比方说通过图片能够自动产生对应的诗歌,这个是公司做的一个,就是自学习的实验,这是一个我们小的时候,可能玩过的游戏,这个游戏交给计算机,通过自学习,最后强化学习,能够做到这一点,最近我们把迁移学习和强化学习相结合,也做了一个非常好的,使得不需要训练很长的时间,我们就可以把新的游戏给学会。
这里我要说,迁移学习并不是仅仅在实验室这些有趣的实验里面,它在工业上、尤其是在传统工业上,也可以大批的应用。这里我要举一个例子就是千万级微信公众号上面,我们有很多这样的数据,我们怎么样能够利用这样的数据来识别,针对最有可能性的客户,怎么做客户识别呢?如果通过人来做,一个人也就能少于几十个,最多一百个这样。但是如果我们能够通过大数据来做的话,这个就非常成功了,就可以对上亿的人进行甄别,这个是非常成功。但是这些款项往往都是小额的贷款,但是大额贷款我们能不能做一个对应的模型,实际上用深度学习来做是非常难的?为什么呢?因为大额贷款本身发生的事情就非常少,没有足够的样本。
最近我们通过迁移学习把小额贷款的大量的数据产生的模型,迁移到少数数据大额贷款少数样本这样问题上,也取得了非常大的成功。这个也是让我们觉得非常高兴。对于小数据的人终于能够享受到这样的人工智能红利了。
我总结来说呢,就是我们所说的强人工智能和超级人工智能,实际上并不是我们需要害怕的东西,我们需要害怕的东西是我们的技术,一定需要大数据,但是我们本身又没有大数据这样的红利,就好像我们大家都看过狮子王里面的坏狮子,它就想把所有的资源集中在自己的身边。这样豪门更豪。相反呢我们要发展的技术是这样的。辛巴这样一个有很多的人帮助它,他们把知识迁移到辛巴身上,使得短时间通过小数据能够学习、能够成长,我们每一个人都是一个辛巴,如果我们有能力把大数据的模型迁移到我们每一个人身上,我们也使得我们每一个人都能够享受到这样的人工智能红利。
原文发布时间为:2016年7月6日