杨强：从“互联网+”到“+人工智能”

2015年8月14日，由中国科协、中国科学院指导，中国人工智能学会发起主办的第五届中国智能产业高峰论坛在上海长荣桂冠酒店顺利召开。

摘要
所谓“深度+”是通过大数据来产生这种，我们所看到的这个“互联网+”就可以把它的这个“+”变成一种真正的具有领域知识、具有大数据支持的这种“+”，有群体智能，终生学习，特征工程的“+”。

以下是报告全文：

杨强：我非常荣幸能够跟在这里和大家一起交流。今天，我们听了很多的议题，都是关于“智能”和“智能产业”的。下面，我将从学术界的角度给大家一个观点，通过我知道的几个例子阐述这个观点。我的报告题目叫：从“互联网+”到“+职能”。

首先，我们知道当下比较热门的一个话题叫“互联网+”。大家所知道“互联网+”的意思，就是：利用互联网的触角来使得传统行业产生一个新生的活力，并能够把传统行业带到千家万户。同时，为传统行业提供一个更加简洁、更加高效的运作。我们知道这样的一个“互联网+”的理念，实际上是离不开互联网本质。它的本质我们可以总结几点：最重要的是连接，连接很多人。另外，它也提供了一个实时的服务。所有的这些服务产生的大数据，使得我们能够有一个长尾的分布，因此，我们就应该更关注个人和个性化的需求。而所有的这些服务和个性化的需求，是通过什么来实现的呢？这就是“大数据”，我们常用四个V来总结它：体量大、速度快、类别多、真实性强。

如果我们要把“互联网+”到传统企业的话，需要怎么样的“+”法呢？现在有各种各样的“+”法，有浅层的“+”法，也就是说简单的把传统行业的一些ID、帐号、注册，使得用互联网来给大家带来一些便捷，但是这个仅仅是在，可以说是在非常浅层的阶段，只不过使得传统行业的触角变得更远，并没有在本质上使它变得有深刻的变化。我们说可以在基础上进行更进一步的“+”，这种“+”法是深入“+”，也就是说这个“+”的中间实质人工智能是AI，所以这里就用这个符号来代表。

就像刚才讲的，这种“+”是由于互联网带来的一种长尾效应。这种长尾效应体现在服务的种类和用户的需求是在指数型的扩展。它带来的互联网的增值，体现在“个性化”上面。因为每个用户的需求，每个产品提供的功能都是不一样的。在如此广泛的范围之内，我们不可能用人工来提供这样的服务满足，所以一定要提供机器学习，一定需要很强的人工智能来提供这样的服务。所以说机器学习也依赖于大数据，那么我们就说这种深入的“+”，是离不开大数据的。第二种，这种深度“+”离不开深度学习的。如果互联网只是在表层浅显的和每一个传统行业接触的话，就不能够获得那里的领域知识，也就不能够真正的为用户提供这样的一个服务。比如：在和银行呼叫中心对接的时候，就会产生不同的策略。比方说，需要对不同的用户有不同的服务的策略，拓展价值客户的识别，VIP客户的挽留等等。这些都需要很深层次的领域知识。我们这里说的是有黏性的“+”。

下面，我就给大家举几个例子，来展示几个不同的角度，我认为“深度+”应该怎么样子实现。

这里我列举了几条，比如：语音、图象、推荐、学习等等。利用这样的机会，我们可以建立各种各样的知识图来提供各种服务。首先，我来分解一下，用大数据和人工智能为我们带来的这种变化，这种深度“+”是怎么样的一种深度“+”。

这里我举几个例子：第一个例子是这样的；我们知道高考这个事儿是每个人都经历的。年纪大一点的，我们的孩子都经历的。但是高考之后遇到的一个问题，就是大家选择学校。对吧？这种选择是一种双向的选择。学生在想，说：我到底是要有名气的学校，还是比较保险的学校？同时，想得比较深一点的考生，就会想：“更适合我的专业是哪些？也许我的目的是想提高本人的价值，或者是赚到更多的钱，或者是找到比较好的朋友。”那么他可能因为具有不同的目的，他想去的地方也不同。

这里我要举的例子，是我知道的一个公司。们就利用大数据、互联网的大数据，尤其是这种个人简历的大数据，建立了这样一个系统。大家可能看过一个卡通片叫《花木兰》，它在决定它自己是否去从军的时候，就有很多的祖先来给它提供各种各样的建议。有人说：“去。”有人说：“不去。”我们每一个人在面临这样的人生抉择的时候，也希望有这样的一个长辈来告诉他你应该走这条路，之后走这条路。大数据可以把这些简历作为基本的数据，在简历里面按照时间轴罗列每个人进行的工种，他在学校所做的一些工作，以及他所达到的一些成就，由此就将上述内容变成一个图谱，变成一个时间和空间的瀑布。因为这个图谱是集中上亿人的数据，所以应该说是非常好的。有了这样一个图谱，我们就可以对每个人进行个性化的集体学习了。

比方说：就可以做这样的一个事儿。举华中科技大学为例，这里出来的一个学生，我们就可以说，他在哪个城市的可能性比较大？这个图就显示了，他在哪个城市的可能性比较大。这些学生大部分是学的什么专业？或者是说学的专业的比例，去的哪些公司等等之类的。所以在下一步，他就可以去想，我应不应该去上这一所大学。同时，这样的一个图谱，也为我们提供了更多的知识。我们就知道，比方说对于腾讯这样的公司，里面员工平均的情况。他之前和之后员工的去向和来源都是有哪些，这些是不是适合我们工作。像这样的一种连接，真正的为个人提供的一个知识的学习，为他真正的提供一个智能的建议。这里要提的，当然这种图谱可以为你提供下一步。但是我们能不能为他提供多步呢？这里可以通过强化学习，就像机器人在一个物理空间的移动，我们可以把这个人在一个虚拟空间的移动，也给它做一个优化，把这个人生的轨迹、最优的轨迹给显示出来，这个就是强化学习。

我第二个例子要举的是：在微信这个平台上大家其实是可以做很多的人工智能活动。也许每个人都在用微信，但是大家不知道的是微信后端有一个从事识别的团队，他们做的很多工作现在大家都是在用。微信是人与人的服务、连接，它现在正在努力的一个方向是人与服务的连接，这也是“互联网+”的一个理念。我知道微信的发展是很快的，所以这里我就不用多提了；它从“0”到“6亿”这个水平，也不过仅仅经过了短短的四年而已，现在它有大概6亿的活跃用户，有800万的公众号，有很多很多的服务号。它的人工智能和模式识别的团队，也是在进行很多深度学习的研究。比如：可以进行人脸识别，可以扫描人、扫描物，图象风格和甚至进行3D的虚拟现实等，比如说，文字和信用卡，证件的扫描，包括人脸识别的登录等等之类的，现在微信团队都可以得到实现。

我们看到关于图象识别的深度学习是应用在各个方面。百度中有一个团队也不例外，尤其在朋友圈利用学习算法建立了一个用户模型。我们知道最近一个比较轰动的例子，是利用朋友圈来发广告，这也是一个深度学习的尝试。这个尝试比较惊人的是：它准确率是相当的高，因为这是取决于群体智能的这种威力。

同时，在自然语言，比方说自然语言的理解、自然语言的翻译，还有Speech2text都得益于深入分析的研究。这里我要举一个公益方面的例子，就是微信利用群体智能所做的一个尝试，这个名字叫作“听见”。它的目标是利用微信和群体智能，为盲人、盲胞进行读书活动。我们知道盲胞如果要听一本书的话，在过去我们是找一位非常有名的播音员把这个书从头到尾读下来，这个质量虽然高，但是他的数量却有限。如果我们能够利用碎片时间，让每个人都可以有机会去读一段文字。比如：《红楼梦》的一个自然段，然后上传到云端，在云端利用云识别去识别它的质量，然后把高质量的语音片断串起来变成一本书，这个也就是群体智慧的一个语音版。到现在为止，他们成功的做出了100多本读物，然后就给盲人同胞，汇集了大概上千万的盲人同胞在中国。

我刚刚讲的第一个是大数据和互联网带来的一个现象，就是群体智慧、群体智能。群体智能为“互联网+”，为“智能+”提供了新鲜血液。下面我要说的是终身学习。首先，终身学习的概念是这样的：在过去，我们学习是拿一个训练题，训练出一个模型然后再应用。应用下去就无限期应用下去了；但是，我们知道数据的来源是不断过来的，尤其是在互联网上的数据，这种大的数据是不断的更新，就像智能的老鼠在一个迷宫里面，它也不断地得到新的信息，然后产生新的模型。这个新的模型再利用进来，他又得到新的反馈。这个循环以后，这个系统就不断的改进，不断的提高，这个我们叫作“终身学习”。

“终身学习”也不是那么通俗易懂的。这里，我要举一个例子。比方说，在互联网广告上面，我们可以把它理解成一种终身学习。用户看到这个广告的投放，用户可以去点击。用户可能点击了，就表示他有兴趣。但是如果他没有点击呢，我们就不知道了，我们可以理解成或者没有兴趣，或者他有兴趣而没有点击。如果我们看一下沿着时间轴，从上到下沿着时间轴的这种流动，每一个产品用户感兴趣的程度是一个时间的函数。也就是说，不是恒定不变的。那么放到个人身上，实际上一个用户的兴趣也是在衍变的。比如：春节我们感兴趣的产品在夏天就不一定感兴趣。这个会为终身学习带来什么样的一种挑战呢？如果我们现在看到的是一些正例和负例，我们就会根据正例和负例建立一个模型。但是如果这个模型非常好的话，那么我们以后看到的也往往是正例，我们再利用这些正例来补足和训练我们的模型，我们的模型往往就会变得有偏差。为什么呢？因为我们误以为今后所有的例子都是正例，而负例我们看不到，所以我们没有办法让负例来参加我们的训练，那么我们的模型就会有偏，所以准确率就会下降。

就是这样的一个图，就是反过来说那句老话：成功是失败之母。在成功的时候就孕育着失败，当足够多的负例得到增加的时候，我们就会迎来成功。这种终身学习，沿着时间轴的学习不是一帆风顺，也是需要有很多研究的。

在这个方面，我们也在进行各种研究。比如：利用强化学习。就像刚才点击的过程，实际上如果我们利用强化学习，就可以既根据用户眼下可以进行的点击，同时也根据用户在无限扩展的无限步以后可能点击网页的收益共同来建立这样的一个行为图谱。这个图谱，在整个的时间轴上面就应该是最佳的，所以这个概念就叫作“强化学习”。在这个里面我们加入“深度学习”，把深度学习和强化学习加以结合，形成一个比较好的概念。

接下来我要讲的是另外第三种转变，就是：从在模型上面下很多功夫到在特征上面下很多功夫的转变，这也是我们认为深度学习在图象和语音上面取得成功的一个重要方面。我们知道大数据和传统数据的一个重大区别，就是大数据可以为我们带来自动化、个性化，他看到大量数据，传统数据看到的只是一部分数据，虽然这一部分数据总结了80%的，但是它只是在所有的服务当中只占20%。

举一个百度的例子，我有很多学生在百度做广告方面的工作。他们举的一个例子就很说明问题，这里看到一个时间轴。在大概2009年的时候，整个的广告收益应该是逐渐提高的，但是用户的点击的准确率却在下降。2009年的时候发生了一件事，使得这个点击的准确率又大幅度的上升。什么事儿呢？增加了很多机器，增加了很多数据，同时增加了很多的Feature。这就说明什么呢？这说明大数据的增加，实际上产生的是特征的数量增加，同时提高了大量的准确率。

同样的这个东西，我们在图象上面也同样有看到。比如：我们对于图象的分析，实际上是我们对Feature增加的一种反映。在金融上面，刚刚我们听过蚂蚁金服漆远的演讲，他们在这方面也是有很大的潜力。金融作为分期付款在产品体验上面也看到了实实在在的提高，在招商银行的一个应用上。我们看到有68%这么多的提高，带来的是很高的收益。这个是得益于什么呢？得益于特征的增加。另外一个，虽然我们的特征增加了，但是并不表明我们对于模型的可解释性减低了。拿一个深度学习的模型来，我们同时在这个模型之上附加一个，比方说像决策树这样的一个简单模型、可解释模型，让这个决策树去模拟深度学习的模型。在他们两个模拟结果非常相近的情况下，深度学习的模型也可以得到一个人可以解释的模型，同时使得这个效果大大的提高。

互联网+为我们带来大数据，大数据为我们带来几个不同的方面。群体智能，特征的方向转移等等之类，那么就使得我们在可以看到在医疗、金融、教育、交通等等这些传统行业，都会产生很大的不同。所以，最后我就总结一下，所谓“深度+”是通过大数据来产生这种，我们所看到的这个“互联网+”就可以把它的这个“+”变成一种真正的具有领域知识、具有大数据支持的这种“+”，有群体智能，终生学习，特征工程的“+”。

本文来源于"中国人工智能学会",原文发表时间"2015-08-26"

时间： 2024-08-15 09:24:34

杨强：从“互联网+”到“+人工智能”

杨强：从“互联网+”到“+人工智能”的相关文章

或遭遇寒冬？杨强谈人工智能发展现状及前景

专访 | 杨强教授谈CCAI、深度学习泡沫与人工智能入门

第四范式首席科学家杨强教授：人工智能的下一个技术风口与商业风口

香港科技大学教授杨强：云计算、大数据能让每个人都享受到AI红利

香港科技大学杨强教授：深度学习如何才能更靠谱？

科学式家｜杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习

SIGKDD 三大核心奖项出炉，裴健、杨强分获创新奖及杰出服务奖

香港科技大学杨强教授：AI学术的前沿工作，也要从工业界获得灵感｜CCF－GAIR 2017

香港科技大学杨强教授专注研究的这项新兴技术，可能能造就最初的真正“智能”