漆远:小数据学习和模型压缩存挑战,场景成为 AI 技术发展关键

 “蚂蚁金服是一家技术驱动的公司,我们做的事情,是使 AI 技术成为普惠金融的支点。”蚂蚁金服副总裁、首席科学家漆远博士,在有中国“ AI 春节”之称的新智元2017开源·生态AI技术峰会上表示。

大约一个月前,在北大“人工智能前沿”系列课程的讲堂上,作为特邀演讲人的漆远已经将 AI 技术和普惠金融的概念结合到了一起。在新智元 AI 技术峰会上,漆远再次强调:“蚂蚁金服核心的关键点在于普惠的金融服务,而实现普惠金融服务依靠的技术就是人工智能和大数据。”

场景!场景!场景!

从技术到落地,AI 的场景化应用成为本次新智元技术峰会上的一个关键词。漆远指出,在杭州,蚂蚁金服和城市政府直接对接了超过100项市政服务,比如司机闯红灯,可以通过支付宝进行直接赔付。“再举几个例子,支付宝可以在杭州城区购买地铁票;当芝麻信用超过一定分数时,人们可以免押金入住酒店,免押金租房;人们可以使用支付宝在中医院挂号,可以乘坐公共汽车。其实所有这一切,都是依托场景。”

而杭州的变化只是中国万千城市的一个缩影,“在浙江,一年有6亿人次享受城市服务,全部通过手机实现。例如,95%的超市、便利店可以用支付宝进行付款。这些数据背后,可以看到一个人的吃穿住行等方方面面。如此触达的条件实际上为我们奠定了非常坚实的基础,能够让我们把技术和场景结合起来,提供真正有价值的服务。”

“大家会问,讲 AI 为什么要讲这些?最近有人写了一篇文章,讲 AI 的娱乐化趋向。这其实是讲了一个 common sense,就是做 AI 离不开场景……我相信技术是第一生产力,关键是怎么落地,在商业场景里发挥出价值。”

 

漆远认为,一个非常重要的经验是,“不要为了做技术而做技术,一定要想到有商业价值的、有数据的场景,场景非常关键。否则,只是在公司里面闭门造车,做了也没有用。如果是初创公司,这公司已经注定要完蛋。这其实是非常关键的一个point。比如说我在阿里做第一个项目,是做参数服务器,就是分布式机器学习平台。但是我们找的第一个应用点特别简单,大家猜猜什么场景会有商业价值?对,就是广告。”

 

“于是我们就在CTR预估上采用了这个系统。因为这个系统只要能提升1‰,就有很多收益;提升1% 的收益就更多。我们当时做这个项目,应用在双11实时预测的用户产品推荐上,后来变成了阿里巴巴第一个大规模机器学习平台。所以一开始你要找到一个商业价值的落地点,如果我们做参数服务器,同样的技术,就是死路一条。在公司,在商业环境中,这肯定是没有前途的。”

“又比如深度学习技术的应用。它带来了图像识别、语音识别、NLP 等领域的长足进步,但是它的落地点在哪里?这就要问你的核心价值在哪里。一开始我们就很具体,就做客服。大家可能觉得这不是一个sexy的行业,但是真正能做好就有巨大的商业价值。这同样是要在场景中体现能力。”

 

而对于场景和数据、云计算以及算法的关系,漆远论述到,“其实很多公司今天都正在、或者已经完成国内互联网领域的上半场角逐。之后,大家开始真正竞争的是云计算的能力,比如阿里,比如蚂蚁金服的云,比如微软和Amazon的云,而这背后其实就是数据。比拼的是谁的场景数据本身有价值。其实阿里内部有一个比喻:数据是土壤,土壤上要盖高楼,才能产生价值,这要靠算法,靠人工智能。要真正能把价值体现出来,而不是坐在金山上吃馒头。我们需要通过人工智能,让用户产生的社会数据发挥价值,并将有价值的服务带给用户。场景的 vertical domain 非常重要。场景一边为我们带来数据,一边为用户带来真正有价值的服务。”

 

从智能客服到保险业

在金融服务这一大场景下,漆远特别以其中的智能客服、个性化产品和资讯推荐、保险及自动核赔等多个小场景为例,展现了AI 技术的应用及产生的价值。

“蚂蚁金服正在构建人工智能方方面面的能力和应用,我们在能力上的配备还是比较标准的——机器学习、自然语言处理(NLP)、图像识别、语音识别,尤其是语音识别,完全使用的是阿里集团自己的语音识别能力。蚂蚁金服也在开发许许多多的商业应用。”

“在今天有件事情已经变成共识——如果做平台,没有业务都是会死掉的,这是我们当时战略官的名言。在蚂蚁金服,我们有非常丰富的场景,从信用芝麻分、租车到贷款消费贷、风险控制、营销、智能助理等等,技术本身、数据和商业场景有非常好的结合。”

  • 智能客服

“智能助理在蚂蚁金服有很多的例子,聊天机器人不是我们的重点,我们的重点在产品知识问答,比如金融产品,完成订电影票或者旅行甚至订餐,还有金融服务,比如选择哪个保险比较适合。

   

“在蚂蚁金服,一个标准化的机器人应用就是客服。客服项目在蚂蚁金服可以说是第一个标杆性的人工智能落地项目,它一开始是典型的人力服务工作,在成都客服中心有几千人,每年双11接电话非常繁忙。我们在2015年要做智能客服,使用人工智能算法提升整体客服效率。我们做了大约半年,自助率从60%一下子升到94%,2016年自助率高达97%,去年双11最忙的时候,客服小二实际上非常轻松。今年我们有了一个新的标杆性的指标,两三个星期前刚刚做到。这个新的指标就是不光要自助率高,还要把服务的质量提高,我们要更好地解决问题。两周前,我们已经做到机器人的问题解决率达到了73%,超过了人的在线解决率71%。这是一个标杆的提升。

   

PPT上显示的是三个简单的真实APP展示,展示了机器人本身是怎么来回答问题的;第二,在你没有问问题之前,不靠语音信号或者NLP输入信息,而是通过用户的行为轨迹自动判断当前可能的问题在哪里,系统会根据用户的行为轨迹做出时间训练模型进行分析;第三,人工+智能。我并不是说用机器全部代替人,而是什么时候用人,怎么用机器把人的效率提升。这里我以我们的客服小二和工作台为例,怎么把好的小二的经验变成工作台自身的一部分,利用他们帮助其他的小二工作。这就叫智慧工作台,大规模提升了人类“小二”的服务质量。不光减少了人力,这个项目做了不到半年时间,我们公司统计减去人的成本,减去GPU的成本,公司省下来一个亿多的资金。在蚂蚁金服整体业务迅速扩张的情况下,我们的客服部门人员一直在减少,而所有其它业务人员都在增加——只有客服人员一直在减少,可以看到这个技术的效用。”

 

  • 个性化产品和资讯推荐

“个性化产品和资讯推荐,这里面有很多数据的融合问题,比如电商行为购买数据如何能够帮助财富升值、资讯阅读能不能帮助我们支付消费等等。

这里面有一个比较简单的思想,就是借助我们大量的数据源,建立比较大规模的深度学习网络,把所有数据做一个隐含的表达,在一个空间里面把很多数据源融合到一起。基于此,可以保护数据的隐私,也可以做出很多有意思的应用。

通过用户属性可以分析他的阅读偏好,聚宝头条咨询和社区观点推荐,比原来的算法直接提升了六倍的点击率。大家看PPT,这里显示的是用户对紧身裤、连衣裙选择偏好,漂亮女孩有什么共性?其中一个是她们经常穿比较紧身的牛仔裤,她们中的很多人会购买手机屏幕服务,所以我们为这一人群开发了碎屏险的保险产品。这是个性化产品非常碎片化、但又非常长尾的应用的例子。”

  • 保险及自动核赔

“保险业非常注重大数据应用,从人群定位到识别、从反欺诈到风险定价等等,从头到尾贯穿着数据。运费险是一个现在比较经典的例子,我买东西要退,保险费只要一块多钱,但是每个人不一样,我们做到了完全个性化。一开始这并不是差异化的,而是一口价,所以最初这个生意一直赔钱,后来我们把一个广告的算法用到保险里面,建立了一个人退货概率和产品之间的关系——这其实和很多广告非常类似,一个人点击广告也有概率——计算之后产生新的保险产品,这个保险产品一天盈利就达到几千万。这是典型的碎片化但是极为广泛的应用的例子。”

“自动核赔,用户在手机上报被盗32块钱。人脸识别之外下面还有很多算法和模型自动判断是不是您,其实并不是只做一个人脸识别。整体能够大幅度提升效率。”

一些挑战

对于 AI 技术应用中一些特别需要注意的问题和挑战,漆远此前有过精彩论述。

  • 基于加强学习的对话系统

“其实在对话系统没有很多数据的情况下,一开始你很难做加强学习,有可能你就只能做一个规则技术。但再往后面,可能当你需要完成任务,以任务为目标的时候,你在做 task completion 的时候,就像下围棋,你要完成任务,赢别人。这时候你和用户其实是 interation。这个时候你可以考虑,怎么来介入。大家也知道翻译模型,对话系统很多用翻译模型,我们叫做 seq2seq,也就是sequence to sequence。假如有一堆 sequence,假如是多轮对话,你能不能应付,就是一个 sequence 到另一个 sequence,再到另一个 sequence。这其实都是对技术的挑战,对数据收集的挑战,对数据标注的挑战。”

  • 小数据学习

“这个问题现在也越来越明显了。其实今天讲大数据,有点令人误会。就很多场景下问题的复杂度而言,其实数据并不大。我们要分析风云变幻的市场。就如刚才雷老师说,你看一个公司过去两年的交易数据,其实一点不多,把季报全都加进来。其实一年就4份财报。在数据并不多的情况下,怎么能够把这个小数据学习的问题解决?”

  • 推理和知识图谱

很多问题需要你做推理,如果A发生了,到B,B发生,回到C,你怎样把推理过程做好?今天,大家做了很多深度学习,比如说一个文本里面,A会导致B的发生,你把这个相关的答案找到。但是并不能推理出B到C和C到D。如果做知识图谱,其实跟深度学习没什么关系,今天的深度学习图谱其实是建了一个图模型,然后把这个点一个一个往下推,而这两个框架是完全分离的框架,这其实也是分裂的。大家能不能真正有一套机制,能有推理的功能?这其实既有理论上的价值,更有商业上的价值,巨大的价值。刚才已经提到知识图谱了,大家其实现在有一系列算法讲知识图谱,knowledge graph,但是学术上发表的很多文章,工业上暂时是没法用的。有一些算法——我就不说哪个算法了,有的还是我好朋友写的——很难应用在工业上,为什么呢?因为它基本上不能达到需要的准确性。

  • 无监督学习

“另外,无监督学习也喊得比较响。这是跟小数据学习相关的。很多数据是有标注的,还有很多数据没有标注,那怎么能够把没有标注的数据都用起来,真正做到把数据的所有价值都真正体现出来?当然,在无监督学习和有监督学习中间,还有一个半监督学习(有一部分有标注)。我们怎么把它们结合起来一起进行学习?这也是一个在今天的背景下非常有意义的方向。”

  • 数据和模型的压缩

“从工业界来讲,更实用的是数据和模型的压缩。刚才有人问我说深度学习能不能用于量化交易,尤其是高频。我说高频的话,如果深度学习有好几层的模型,比如做图像有 100 多层。而高频交易希望在千分之一秒或者万分之一秒之内把交易完成,这两个互相矛盾。工业很多应用非常在乎实时性,不能有大量 delay。怎么能做得快呢?这就需要模型的压缩,要用 hashing 等技术,这也是非常好的方向。”

漆远在演讲的最后总结道:我们在做从移动互联网到云计算到端的扩展。蚂蚁金服核心的关键点在于普惠的金融服务,而实现普惠金融服务依靠的技术就是人工智能和大数据。

文章转自新智元公众号,原文链接

时间: 2024-08-28 10:59:25

漆远:小数据学习和模型压缩存挑战,场景成为 AI 技术发展关键的相关文章

CCAI 2017 | 小数据学习对人工智能究竟有着怎样的影响?

近几年来,得益于大数据的积累.计算能力的提升,深度学习从学术到工程领域均取得了非常显著的发展与突破,尤其是诸如图像识别.语音识别等实际场景应用.但是,依赖于海量的训练数据.灵活的模型.足够的运算能力以及足以对抗维度灾难的先验经验,从很大程度上来讲妨碍了深度学习技术更为广泛的运用.为此,在全球范围内,众多人工智能领域的学术大师及业界专家上下求索,也由此催生了小数据学习(Learning from limited information),通过更少的数据以及更确定的方法让 AI 学习更加高效. 然而

蚂蚁金服漆远:人工智能是如何重新定义金融行业的?

"蚂蚁金服是一家TechFin公司,而不是FinTech公司",这是蚂蚁金服给自己的定位. 蚂蚁金服副总裁.首席数据科学家漆远认为,金融领域核心的问题是风险管理,而蚂蚁金服希望用技术.数据能力去助力金融企业,去服务普通消费者和商户,提升金融机构的风险管理能力.这是蚂蚁金服强调技术,而不是做金融的主要原因. 事实上,人工智能就是蚂蚁金服最核心的技术之一.在蚂蚁金服内部,诸如机器学习.人脸识别.NLP等人工智能技术已经在支付.理财.保险定价.信用.智能客服等领域实现了应用. 对此,漆远举了

大数据时代的“小数据”

如今,CIO们都已经接受了"大数据"的概念,另一个概念也逐渐受到关注:小数据. 这两者看似是相对立的两端,但是这不完全正确.小数据往往指数据量;而大数据当然也包含了数据量,但是也包含了多样性,时效性,特定的技术或者其他概念. Kirk Borne,是美国乔治梅森大学的天体物理学和计算机科学的教授, 他认为这两者的区别是很重要的.Borne有关大数据的课程专注于大数据的属性和先进的分析技术, 而这些也几乎总是可以应用于小数据.但是后者却可以使学生进行实验,磨练他们在数据分析上的技能.而大

漆远:蚂蚁金服 AI 技术大揭秘, 开放“模型服务平台”

在本次大会上,蚂蚁金服副总裁兼首席数据科学家漆远博士发表了主题为<金融智能的发展与应用>的演讲.漆远表示,蚂蚁金服今年的两个关键词,一个是"开放",一个是"AI". 在此次演讲中,漆远从风控系统.智能助理.定损宝等产品案例出发,全面介绍了蚂蚁金服产品背后的 AI 技术. 现场,蚂蚁金服的"模型服务平台"首次公开亮相,主打"模型所见即所得".漆远表示,数据是资产,模型本身也是资产.未来,蚂蚁金服也会将这个平台作为其中

蚂蚁金服漆远谈大数据智能:有95%智能客服

月8日下午消息,在2016中国(杭州)"互联网+"金融大会,蚂蚁金服首席数据科学家漆远从智能客服.农村金融以及保险业务等方面介绍了蚂蚁金服的大数据智能. 漆远表示,数据已经逐步成为商业的核心价值,大数据智能应用已经从支付扩展到金融的全链条,帮助蚂蚁金服在支付.贷款.征信.保险.财富等方面全面推动小.确.幸的金融普惠. 据漆远介绍,人工智能包括深度机器学习.语音识别.图像识别等,具有广泛覆盖.随时随需.精准匹配.风险可控等特点,可以低成本.个性化,更好的服务小微企业和个人消费者. 芝麻信

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]"技术是总是配"套"而来的但这个"套"有大有小Technology comes in packages, big and small". 这个定律用在当下是非常应景的.因为我们正步入一个"大数据big data"时代但对于以往的"小数据small data"我们能做到"事了

史上最全的“大数据”学习资源(上)

当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据"一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明.新服务和新的发展机遇. 五月直播季迅猛来袭!5月13日20点,直播<虎嗅网架构演讲>,点击报名:https://yq.aliyun.com

《大数据、小数据、无数据:网络世界的数据学术》一 2.2 定义与术语

2.2 定义与术语 学术文献.政策声明和大众媒体中到处都充斥着对数据的讨论,它们都尝试定义业内术语.罗森博格(Rosenberg 2013)指出,即使是在科学史和认识论历史中,人们也只是在无意间提及数据(Blair 2010:Daston 1988:Poovey 1998:Porter 1995).其他在科学领域中讨论事实(fact).表示(representation).记录册(inscription)和出版(publication)等含义的基础性作品也很少关注数据本身(Bowker 2005

史上最全“大数据”学习资源整理

史上最全"大数据"学习资源整理 2016-05-17 Hadoop技术博文 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据"一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明.新服务和新的发展机遇.     资源列表:   关系数