杨强:从“互联网+”到“+人工智能”

2015年8月14日,由中国科协、中国科学院指导,中国人工智能学会发起主办的第五届中国智能产业高峰论坛在上海长荣桂冠酒店顺利召开。

摘要
所谓“深度+”是通过大数据来产生这种,我们所看到的这个“互联网+”就可以把它的这个“+”变成一种真正的具有领域知识、具有大数据支持的这种“+”,有群体智能,终生学习,特征工程的“+”。

以下是报告全文:

杨强:我非常荣幸能够跟在这里和大家一起交流。今天,我们听了很多的议题,都是关于“智能”和“智能产业”的。下面,我将从学术界的角度给大家一个观点,通过我知道的几个例子阐述这个观点。 我的报告题目叫:从“互联网+”到“+职能”。

首先,我们知道当下比较热门的一个话题叫“互联网+”。大家所知道“互联网+”的意思,就是:利用互联网的触角来使得传统行业产生一个新生的活力,并能够把传统行业带到千家万户。同时,为传统行业提供一个更加简洁、更加高效的运作。我们知道这样的一个“互联网+”的理念,实际上是离不开互联网本质。它的本质我们可以总结几点:最重要的是连接,连接很多人。另外,它也提供了一个实时的服务。所有的这些服务产生的大数据,使得我们能够有一个长尾的分布,因此,我们就应该更关注个人和个性化的需求。而所有的这些服务和个性化的需求,是通过什么来实现的呢?这就是“大数据”,我们常用四个V来总结它:体量大、速度快、类别多、真实性强。

如果我们要把“互联网+”到传统企业的话,需要怎么样的“+”法呢?现在有各种各样的“+”法,有浅层的“+”法,也就是说简单的把传统行业的一些ID、帐号、注册,使得用互联网来给大家带来一些便捷,但是这个仅仅是在,可以说是在非常浅层的阶段,只不过使得传统行业的触角变得更远,并没有在本质上使它变得有深刻的变化。我们说可以在基础上进行更进一步的“+”,这种“+”法是深入“+”,也就是说这个“+”的中间实质人工智能是AI,所以这里就用这个符号来代表。

就像刚才讲的,这种“+”是由于互联网带来的一种长尾效应。这种长尾效应体现在服务的种类和用户的需求是在指数型的扩展。它带来的互联网的增值,体现在“个性化”上面。因为每个用户的需求,每个产品提供的功能都是不一样的。在如此广泛的范围之内,我们不可能用人工来提供这样的服务满足,所以一定要提供机器学习,一定需要很强的人工智能来提供这样的服务。所以说机器学习也依赖于大数据,那么我们就说这种深入的“+”,是离不开大数据的。第二种,这种深度“+”离不开深度学习的。如果互联网只是在表层浅显的和每一个传统行业接触的话,就不能够获得那里的领域知识,也就不能够真正的为用户提供这样的一个服务。比如:在和银行呼叫中心对接的时候,就会产生不同的策略。比方说,需要对不同的用户有不同的服务的策略,拓展价值客户的识别,VIP客户的挽留等等。这些都需要很深层次的领域知识。我们这里说的是有黏性的“+”。

下面,我就给大家举几个例子,来展示几个不同的角度,我认为“深度+”应该怎么样子实现。

这里我列举了几条,比如:语音、图象、推荐、学习等等。利用这样的机会,我们可以建立各种各样的知识图来提供各种服务。首先,我来分解一下,用大数据和人工智能为我们带来的这种变化,这种深度“+”是怎么样的一种深度“+”。

这里我举几个例子:第一个例子是这样的;我们知道高考这个事儿是每个人都经历的。年纪大一点的,我们的孩子都经历的。但是高考之后遇到的一个问题,就是大家选择学校。对吧?这种选择是一种双向的选择。学生在想,说:我到底是要有名气的学校,还是比较保险的学校?同时,想得比较深一点的考生,就会想:“更适合我的专业是哪些?也许我的目的是想提高本人的价值,或者是赚到更多的钱,或者是找到比较好的朋友。”那么他可能因为具有不同的目的,他想去的地方也不同。

这里我要举的例子,是我知道的一个公司。们就利用大数据、互联网的大数据,尤其是这种个人简历的大数据,建立了这样一个系统。大家可能看过一个卡通片叫《花木兰》,它在决定它自己是否去从军的时候,就有很多的祖先来给它提供各种各样的建议。有人说:“去。”有人说:“不去。”我们每一个人在面临这样的人生抉择的时候,也希望有这样的一个长辈来告诉他你应该走这条路,之后走这条路。大数据可以把这些简历作为基本的数据,在简历里面按照时间轴罗列每个人进行的工种,他在学校所做的一些工作,以及他所达到的一些成就,由此就将上述内容变成一个图谱,变成一个时间和空间的瀑布。因为这个图谱是集中上亿人的数据,所以应该说是非常好的。有了这样一个图谱,我们就可以对每个人进行个性化的集体学习了。

比方说:就可以做这样的一个事儿。举华中科技大学为例,这里出来的一个学生,我们就可以说,他在哪个城市的可能性比较大?这个图就显示了,他在哪个城市的可能性比较大。这些学生大部分是学的什么专业?或者是说学的专业的比例,去的哪些公司等等之类的。所以在下一步,他就可以去想,我应不应该去上这一所大学。同时,这样的一个图谱,也为我们提供了更多的知识。我们就知道,比方说对于腾讯这样的公司,里面员工平均的情况。他之前和之后员工的去向和来源都是有哪些,这些是不是适合我们工作。像这样的一种连接,真正的为个人提供的一个知识的学习,为他真正的提供一个智能的建议。这里要提的,当然这种图谱可以为你提供下一步。但是我们能不能为他提供多步呢?这里可以通过强化学习,就像机器人在一个物理空间的移动,我们可以把这个人在一个虚拟空间的移动,也给它做一个优化,把这个人生的轨迹、最优的轨迹给显示出来,这个就是强化学习。

我第二个例子要举的是:在微信这个平台上大家其实是可以做很多的人工智能活动。也许每个人都在用微信,但是大家不知道的是微信后端有一个从事识别的团队,他们做的很多工作现在大家都是在用。微信是人与人的服务、连接,它现在正在努力的一个方向是人与服务的连接,这也是“互联网+”的一个理念。我知道微信的发展是很快的,所以这里我就不用多提了;它从“0”到“6亿”这个水平,也不过仅仅经过了短短的四年而已,现在它有大概6亿的活跃用户,有800万的公众号,有很多很多的服务号。它的人工智能和模式识别的团队,也是在进行很多深度学习的研究。比如:可以进行人脸识别,可以扫描人、扫描物,图象风格和甚至进行3D的虚拟现实等,比如说,文字和信用卡,证件的扫描,包括人脸识别的登录等等之类的,现在微信团队都可以得到实现。

我们看到关于图象识别的深度学习是应用在各个方面。百度中有一个团队也不例外,尤其在朋友圈利用学习算法建立了一个用户模型。我们知道最近一个比较轰动的例子,是利用朋友圈来发广告,这也是一个深度学习的尝试。这个尝试比较惊人的是:它准确率是相当的高,因为这是取决于群体智能的这种威力。

同时,在自然语言,比方说自然语言的理解、自然语言的翻译,还有Speech2text都得益于深入分析的研究。这里我要举一个公益方面的例子,就是微信利用群体智能所做的一个尝试,这个名字叫作“听见”。它的目标是利用微信和群体智能,为盲人、盲胞进行读书活动。我们知道盲胞如果要听一本书的话,在过去我们是找一位非常有名的播音员把这个书从头到尾读下来,这个质量虽然高,但是他的数量却有限。如果我们能够利用碎片时间,让每个人都可以有机会去读一段文字。比如:《红楼梦》的一个自然段,然后上传到云端,在云端利用云识别去识别它的质量,然后把高质量的语音片断串起来变成一本书,这个也就是群体智慧的一个语音版。到现在为止,他们成功的做出了100多本读物,然后就给盲人同胞,汇集了大概上千万的盲人同胞在中国。

我刚刚讲的第一个是大数据和互联网带来的一个现象,就是群体智慧、群体智能。群体智能为“互联网+”,为“智能+”提供了新鲜血液。下面我要说的是终身学习。首先,终身学习的概念是这样的:在过去,我们学习是拿一个训练题,训练出一个模型然后再应用。应用下去就无限期应用下去了;但是,我们知道数据的来源是不断过来的,尤其是在互联网上的数据,这种大的数据是不断的更新,就像智能的老鼠在一个迷宫里面,它也不断地得到新的信息,然后产生新的模型。这个新的模型再利用进来,他又得到新的反馈。这个循环以后,这个系统就不断的改进,不断的提高,这个我们叫作“终身学习”。

“终身学习”也不是那么通俗易懂的。这里,我要举一个例子。比方说,在互联网广告上面,我们可以把它理解成一种终身学习。用户看到这个广告的投放,用户可以去点击。用户可能点击了,就表示他有兴趣。但是如果他没有点击呢,我们就不知道了,我们可以理解成或者没有兴趣,或者他有兴趣而没有点击。如果我们看一下沿着时间轴,从上到下沿着时间轴的这种流动,每一个产品用户感兴趣的程度是一个时间的函数。也就是说,不是恒定不变的。那么放到个人身上,实际上一个用户的兴趣也是在衍变的。比如:春节我们感兴趣的产品在夏天就不一定感兴趣。这个会为终身学习带来什么样的一种挑战呢?如果我们现在看到的是一些正例和负例,我们就会根据正例和负例建立一个模型。但是如果这个模型非常好的话,那么我们以后看到的也往往是正例,我们再利用这些正例来补足和训练我们的模型,我们的模型往往就会变得有偏差。为什么呢?因为我们误以为今后所有的例子都是正例,而负例我们看不到,所以我们没有办法让负例来参加我们的训练,那么我们的模型就会有偏,所以准确率就会下降。

就是这样的一个图,就是反过来说那句老话:成功是失败之母。在成功的时候就孕育着失败,当足够多的负例得到增加的时候,我们就会迎来成功。这种终身学习,沿着时间轴的学习不是一帆风顺,也是需要有很多研究的。

在这个方面,我们也在进行各种研究。比如:利用强化学习。就像刚才点击的过程,实际上如果我们利用强化学习,就可以既根据用户眼下可以进行的点击,同时也根据用户在无限扩展的无限步以后可能点击网页的收益共同来建立这样的一个行为图谱。这个图谱,在整个的时间轴上面就应该是最佳的,所以这个概念就叫作“强化学习”。在这个里面我们加入“深度学习”,把深度学习和强化学习加以结合,形成一个比较好的概念。

接下来我要讲的是另外第三种转变,就是:从在模型上面下很多功夫到在特征上面下很多功夫的转变,这也是我们认为深度学习在图象和语音上面取得成功的一个重要方面。我们知道大数据和传统数据的一个重大区别,就是大数据可以为我们带来自动化、个性化,他看到大量数据,传统数据看到的只是一部分数据,虽然这一部分数据总结了80%的,但是它只是在所有的服务当中只占20%。

举一个百度的例子,我有很多学生在百度做广告方面的工作。他们举的一个例子就很说明问题,这里看到一个时间轴。在大概2009年的时候,整个的广告收益应该是逐渐提高的,但是用户的点击的准确率却在下降。2009年的时候发生了一件事,使得这个点击的准确率又大幅度的上升。什么事儿呢?增加了很多机器,增加了很多数据,同时增加了很多的Feature。这就说明什么呢?这说明大数据的增加,实际上产生的是特征的数量增加,同时提高了大量的准确率。

同样的这个东西,我们在图象上面也同样有看到。比如:我们对于图象的分析,实际上是我们对Feature增加的一种反映。在金融上面,刚刚我们听过蚂蚁金服漆远的演讲,他们在这方面也是有很大的潜力。金融作为分期付款在产品体验上面也看到了实实在在的提高,在招商银行的一个应用上。我们看到有68%这么多的提高,带来的是很高的收益。这个是得益于什么呢?得益于特征的增加。另外一个,虽然我们的特征增加了,但是并不表明我们对于模型的可解释性减低了。拿一个深度学习的模型来,我们同时在这个模型之上附加一个,比方说像决策树这样的一个简单模型、可解释模型,让这个决策树去模拟深度学习的模型。在他们两个模拟结果非常相近的情况下,深度学习的模型也可以得到一个人可以解释的模型,同时使得这个效果大大的提高。

互联网+为我们带来大数据,大数据为我们带来几个不同的方面。群体智能,特征的方向转移等等之类,那么就使得我们在可以看到在医疗、金融、教育、交通等等这些传统行业,都会产生很大的不同。所以,最后我就总结一下,所谓“深度+”是通过大数据来产生这种,我们所看到的这个“互联网+”就可以把它的这个“+”变成一种真正的具有领域知识、具有大数据支持的这种“+”,有群体智能,终生学习,特征工程的“+”。

本文来源于"中国人工智能学会",原文发表时间"2015-08-26"

时间: 2024-08-15 09:24:34

杨强:从“互联网+”到“+人工智能”的相关文章

或遭遇寒冬?杨强谈人工智能发展现状及前景

前不久,落下帷幕的IJCAI SocInf'16 Contest上,天池(tianchi.shuju.aliyun.com)携手人工智能国际顶级会议IJCAI SocInf Workshop,作为比赛的冠军团队T9,来自清华大学的李中杰与姚易成不仅获得了主办方提供的奖金,更取得了组织者提供的美国游基金.通过这个宝贵的机会,在整个美国行行程中,"T9"不仅接触到了AlphaGo技术小组,还与人工智能领域专家.香港科技大学教授杨强进行了深入的交流,而有意思的是,通过本次交流发现,他们初始的

专访 | 杨强教授谈CCAI、深度学习泡沫与人工智能入门

7 月 22 - 23 日,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主办,CSDN.中国科学院自动化研究所承办,作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)将在杭州国际会议中心盛大开幕. 作为大会主席,香港科技大学计算机与工程系主任.AAAI Fellow 杨强教授最近接受了大会记者专访.这次访谈干货满满,其中有不少话题是杨强教授首度公开谈及,比如下一个 AI 突破口.深度学习泡沫.AI 之路心得.本科生入门 AI.好学生要能教导师学习,等等. (点击阅读杨强教授历史

第四范式首席科学家杨强教授:人工智能的下一个技术风口与商业风口

作为华人界首个国际人工智能协会AAAI Fellow.至今为止唯一的AAAI 华人执委,以及IEEE Fellow.AAAS Fellow.IAPR Fellow,杨强教授在专注学术研究的同时,也更关注如何让人工智能技术落地转化为生产力的问题. 作为第四范式首席科学家.范式大学的导师,杨强教授近日在第四范式公司内部进行了一场主题为"人工智能的下一个三年"的培训,深入浅出地分享了自己在人工智能产业推广上的经验,并预判了人工智能即将爆发的技术风口与商业风口.此前,杨强教授与第四范式曾提出人

香港科技大学教授杨强:云计算、大数据能让每个人都享受到AI红利

 5月19日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会进入第二日程,第四范式首席科学家.机器学习领域国际学术带头人.香港科技大学教授杨强在现场带来了"AI For Everyone"的主题演讲. 杨强表示,"我们所说的强人工智能和超级人工智能,实际上并不是我们需要害怕的东西,我们需要害怕的东西是我们的技术,一定需要大数据,但是我们本身又没有大数据这样的红利.相反我们要发展的技术是这样的,把知识迁移到身上,短时间通过小数据能够学习.能够成长,如果我们有能力把大数

香港科技大学杨强教授:深度学习如何才能更靠谱?

雷锋网AI科技评论按:7月22-23日,第三届中国人工智能大会(CCAI 2017)在杭州国际会议中心举行.其中来自香港科技大学的计算机与工程系主任.AAAI Fellow杨强教授发表了<深度学习的迁移模型>主题报告.本文主要阐述了杨强教授在大会中所讲的如何将迁移学习和深度学习相结合,使深度学习模型变得更加可靠,以及具体的实际应用案例. 杨强教授从深度学习模型的共性问题谈起,深度剖析如何使深度学习模型变得更加可靠,在数据变化的情况下,如何让模型持续可用.报告谈到,迁移学习有小数据.可靠性.个性

科学式家|杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习

「范式大学」由第四范式发起,致力于成为"数据科学家"的黄埔军校,校长为第四范式首席科学家,华人界首个国际人工智能协会AAAI Fellow.唯一的AAAI 华人执委杨强教授.   [范式大学]在探索AI工业化的同时,也关注最新学术研究成果.近日,杨强教授在[范式大学]内部课程中,与大家分享了他在 "生成式对抗网络模型" 和迁移学习等领域的独特见解和最新思考.在此特别感谢杨教授的博士生张颖华同学的帮助.   以下内容根据杨强教授演讲编写,略微有所删减. 有些人看过电视

SIGKDD 三大核心奖项出炉,裴健、杨强分获创新奖及杰出服务奖

雷锋网(公众号:雷锋网) AI 科技评论消息,2017 SIGKDD 的三大奖项--创新奖(2017 SIGKDD Innovation Award),杰出服务奖(2017 SIGKDD Service Award)以及十年最佳论文奖(Test of time award)已于日前公布.其中,ACM SIGKDD 新一任主席.加拿大西蒙弗雷泽大学计算机学院教授裴健博士荣获 2017 SIGKDD 创新奖:香港科技大学教授杨强博士荣获 2017 SIGKDD 杰出服务奖:而十年最佳论文奖则被康奈尔

香港科技大学杨强教授:AI学术的前沿工作,也要从工业界获得灵感|CCF-GAIR 2017

雷锋网(公众号:雷锋网) AI 科技评论按:在7月7日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的第二届 CCF-GAIR全球人工智能与机器人峰会正式召开.今年CCF-GAIR的程序委员会主席.香港科技大学计算机系主任杨强教授,担任了大会第一天人工智能前沿专场的「AI 学术前沿」主持人.学术前沿 Session 分别由两位优秀的学术界人士进行演讲,一位是 CMU 金出武雄教授,另一位是 UCL 副教授汪军.在该 Session 结束后,雷锋网 AI 科技评论与杨强教授进行

香港科技大学杨强教授专注研究的这项新兴技术,可能能造就最初的真正“智能”

迁移学习,简单的说,就是能让现有的模型算法稍加调整即可应用于一个新的领域和功能的一项技术.这个概念目前在机器学习中其实比较少见,但其实它的潜力可以相当巨大.杨强教授在刚刚结束的CCF-GAIR上的演讲中曾提到一个愿景--利用迁移学习,即使是自身没有条件获得大量训练数据的小公司也可以按照自己的需要应用大公司训练出来的模型,从而普及AI的应用. 在目前大家都在努力提高人工智能应用通用性的大背景下,迁移学习的崛起之势已经比较明显.不过杨强教授其实早在2009年之前就开始研究迁移学习了--那时他是国内为