11月24日,新智元与科大讯飞联合主办的“人工智能+ 共创新世界”新智元百人会·11月领袖论坛在北京举行。以科大讯飞23日举行的年度发布会为契机,本场论坛从技术上主要围绕认知计算和认知智能展开讨论;在产业上讨论了语音技术的落地问题;发展趋势上,围绕物联网、AI+的巨大潜力展开。
新智元创始人杨静开场致辞,科大讯飞董事长刘庆峰、IBM 大中华区首席技术官、IBM 中国研究院院长沈晓卫、科大讯飞轮值总裁胡郁发表主题演讲。
会后,在接受新智元的独家专访中,科大讯飞轮值总裁胡郁透露,不久前公司进行人事调整,他已经卸任讯飞研究院院长一职,将出任公司消费事业群总裁。未来,胡郁将主要负责讯飞核心研发平台、消费者事业群业务。
胡郁说:“我在讯飞负责三方面的工作,虽然不再担任研究院的院长,但是讯飞正在成立一个核心研发平台,把从联合实验室到研究院,从核心技术引擎开发、云平台架构及服务提供、资源制作等进行整合,我现在还是作为公司的领导分管核心研发平台。另一方面,科大讯飞新成立了三个事业群——智慧教育、智慧城市和消费者事业群,我现在是消费者事业群的总裁,消费者事业群业务范畴包括手机、电视、车载、玩具、机器人、智能家电、智能家居VR、穿戴式设备,包括讯飞语言云的开放平台、广告业务都属于消费者事业群的范畴。第三方面,今年我是公司的轮值总裁,理论上要对整个公司的经营情况和运作起到整体把控作用。”
据悉,讯飞研究院院长一职将由原副院长胡国平出任。在接受新智元的独家专访中,胡郁不仅谈到了讯飞的最新人事变动和战略规划,还分析了讯飞研究院在科大讯飞整个公司体系中的角色、科大讯飞深度学习技术的独特之处、科大讯飞的人工智能战略布局、科大讯飞对语音、人机交互技术的理解等等。整个采访中,胡郁显得对讯飞自身的技术非常有信心,底气十足。对于与谷歌、百度和搜狗等公司的竞争,包括最近闹得沸沸扬扬的讯飞诉讼百度事件,胡郁也直率地表达了自己的看法。
以下是采访实录:
“前”院长谈讯飞研究院:“顶天立地”与“合众连横”
新智元:科大讯飞现在有多少个联合实验室,每年研究投入经费是多少?
胡郁:在国内大概有10个以上,核心还是跟中科大合作的语音技术处理国家工程实验室。此外,跟清华大学、中科院自动化所也有合作,我们还跟哈工大、西北工业大学、新疆大学、西藏大学、云南大学、内蒙古大学建立了民族语言联合实验室。海外有3个联合实验室,一个是最近跟伯克利大学在机器人和自然语言处理方面合作。另外,跟美国东海岸罗格斯大学也叫新泽西州立大学在大数据方面与中科大校友熊辉合作建立大数据研究实验室(正在谈)。另外,还有在加拿大多伦多约克大学建立的神经计算与认知智能实验室,实验室主任是江辉。海内外一共有13、14个联合实验室。
讯飞2016年在最核心的技术研发上投入占到了整个销售收入的25%~35%,超过10亿元人民币。
新智元:科大讯飞今年在国际上拿下了许多顶级人工智能比赛的冠军,跟联合实验室的合作有关系吗?
胡郁:今年得了四个比较重要的奖项,其中被认为可以替代图灵测试的人工智能 Winograd比赛中,这个是由我们研究院和江辉老师的神经计算与认知科学实验室共同联合组队参加得到的。Blizzard Challenge 冠军我们跟中国科学技术大学的国家工程实验室参加得到。在美国举办的CHiME测试奖项是我们和中国科技大学以及西北工业大学两个联合实验室共同参加得到的。Knowledge Base Population我们有两个系统:一个得了第一,一个得了第二,第一那个系统是讯飞自己参加的,第二是讯飞研究院和约克大学联合实验室共同合作。
新智元:相比其他互联网公司的研究院,讯飞研究院有何独特之处?
胡郁:相比其他互联网公司的技术研究院,讯飞研究院有几个独特之处:
第一,设立讯飞研究院的目标就是要建立自己研发的核心技术且应用在实际产品中的通道。设立研究院的目标并不是为了发表文章,也不是为了单纯做前瞻性的研究,更重要的是为当前产品里面主要的核心技术突破问题找到解决方案,很大一个目标还是要落地的。这是“立地”的部分。讯飞研究院也承担着“顶天”的任务,我们参与着很多国家重大项目的研发,有些研发项目是比较有前瞻性的。我们现在的比例要求是,有30%是比较前瞻性,有70%跟我们的产业应用结合的。
说到特色,它们不是采取简单的程序开发的方法就能得到的,需要和我们很多工程性或者研究性的工作紧密结合到一起,这是第一个特点。也就是——目标非常明确,顶天立地,能解决实际问题,有前瞻性的考虑。它的驱动来源有两个,一个是世界上技术发展方向我们会进行跟踪甚至引领。第二方面来自于应用的需求。
第二,跟很多公司里面的研究院不一样,一般其它公司的研究院研究出来的结果要经过成果转换过程,这个过程要经过很多环节一层层往下套,现在科大讯飞成立核心研发平台就是为了从研究到工程、到云计算、到大数据、到资源制作能够高效一体化,归于统一的决策机制来引导,可以极大地提高研究领域的整个效率。
这跟谷歌做的体系是比较类似的,可以获得非常高效的研发效率,同时也能够使这中间的信息传导、需求的传导和前瞻性的研究突破能够有一个很好的引领传递作用。科大讯飞研究院投入的资金刚才讲有10亿左右的资金,但是投入产出比是非常高的,我们认为现在跟业界的一些大的公司相比,我们的投入产出比可能是他们的5倍左右,所以才能产出这么多令人振奋的成果。
第三,讯飞研究院整个体系大概有一千人,这里面包括有做云计算、大数据、人工智能、引擎开发、数据整理和制作的。讯飞的整个核心研发平台的最大特点就是跟学校里面的很多做世界第一流研究的老师建立了非常紧密的联系,讯飞自己内部的体系有一千人,但是外面的这些实验室学生老师规模加起来超过一千人,他们做的是更加前瞻性的研究,可能是单个技术的方案,经过我们的核心研发平台把它整合成能够最后直接在工业上使用的技术和服务,这是它的第三个大的特点。
胡郁在新智元百人会11月领袖论坛上介绍讯飞超脑
科大讯飞深度学习技术有何独到之处
新智元:你们的深度学习技术和百度、谷歌相比有何独到之处呢?
胡郁:深度学习算法用于解决自然语言处理的问题,大家的思路还有采用的技术点都是类似的,我们国际上有非常多的交流,比如现在用Attention模型——基于注意力的自然语言处理,大家都会用,差异在对问题定义的方式和提出问题以后找到解的不同的途径。我们提出一种可以在连续空间表达词语概念空间模型的延续分布函数,这种分布函数跟其它人不一样,可能这种函数更精确,在这种函数的基础上我们可以更好地来解决概念表达、句子理解、逻辑推理等一系列问题。同样都是基于注意力模型,可能注意力模型的深度神经网络的架构和整个系统的体系,我们讲的整个系统框架都是完全不一样的。在这方面我们有自己非常独到的根据讯飞关于认知智能方面整体的考虑思路,可能我们会跟别人不一样。比如在我们的系统中对于记忆的处理可能会更加加强,记忆就能更好地把我们从原始数据中得到的信息和训练出来的模型信息更好地综合到一起,这些方面每家采用的具体方案可能不一样,我们认为我们的方案代表了现在最新的发展趋势。
新智元:国际上也是最新的发展趋势?
胡郁:对。
新智元:这有什么论文可以参考?
胡郁:作为公司我们不太愿意发表跟核心技术相关的论文,我们并不是一个学校。但是可以从两个第三方的评价来介绍,第一关于最近用CNN来做语音识别,这一点微软亚洲研究院的研究员俞栋写了一篇文章,微软、谷歌和讯飞,把卷积神经网络识别率提高,成为以后的标准;另外就是,参加几次国际测试的过程中,每次有一个讨论会,我们跟大家交流,不一定发表论文,但是这个讨论会上要讲你的系统是怎么做的,是不是有什么投机取巧的地方或者是用了什么不允许用的技巧,这个过程中我们发布了很多这方面的介绍。
谷歌翻译中的“零数据”并非真正的零数据,未来20年人机交互由输入法引领
新智元:今年人工智能突飞猛进,最让你感到兴奋的人工智能的黑科技或者新技术是哪个?
胡郁:认知智能一直是大家非常期待突破的地方,从认知智能角度来讲,翻译已经取得非常快的发展,不管是谷歌基于神经网络的翻译系统还是讯飞这两年在一系列国际测试都取得非常好的结果,翻译离我们越来越近。基于神经网络的翻译,将翻译技术一下子推到非常接近实用的程度上。
新智元:谷歌刚刚发布了零数据迁移学习的翻译系统,这样一个基于神经网络的翻译技术,跟科大讯飞的翻译技术相比,可比性怎么样?
胡郁:首先要深入解释一下什么叫零数据的深度网络翻译。传统的机器翻译系统是有监督的训练系统。比如要翻译两种语言,就要知道这两种语言对应的文本对,同一句话,一个用中文讲,一个用英文讲,有一个并行的训练数据才能训练翻译系统。
所谓零数据是在没有训练平行语料或双语语料的情况下进行翻译,利用了不同语言之间相互概念上的影射关系来做这样的事情,是一种无监督的学习方法,它代表了翻译和人工智能领域一个非常重要的方向——用无监督学习的方法来训练人工智能系统。
讯飞也在做这样的事情,而且在类似的地方我们已经实现了这种技术,在翻译上大家想法都是比较接近的,但是因为谷歌有更加完善的国际化语言对系统,零数据翻译必须要体现在翻译多个语言对,而且它们之间要有相关性的时候才能发挥作用。
对于讯飞来讲,现在我们主要关心的还是中英之间或者中文和其它语种之间语音的翻译,这比纯文本的翻译要难很多,翻译过程中需要解决两个语种所有的合成识别一系列的问题。我们研究中文对其它语种所有语音的翻译,大家的研究重点不一样,因为每个人的资源有限,只能把有限的资源投入到你最想突破的地方。基于非监督的学习方法,我想我们肯定在应用,而且在自然语言理解方面取得很好的成果。
在2016年有突破性的进展,有一个跟讯飞年度发布会上发布的产品很有关系,就是声音的商品化平台。我们现在确实可以惟妙惟肖模拟一个人的音色、音律、表现力、习惯等等各方面,年度发布会大家看到罗永浩惟妙惟肖的表演,其实是语音合成的,但是很多人没想到。最后一个压轴的视频《疯狂动物城》里面那么多的角色,奥巴马不仅可以用英文,还可以用中文带着他自己的腔调来讲这段话,这都是今年在语音合成上面的突破。讯飞引领了这个突破,国际上都有这个趋势。
除此以外,最具有影响力的就是万物互联输入法,是真正在将来的物联网时代,在远场无屏且移动的过程中真正可以彻底解决在没有键盘、没有鼠标、没有触摸屏的情况下怎么输入的问题。这个对于将来的10—20年的人机交互应该会起到非常重要的引领作用。
智能手机上的输入法战争已经结束,物联网输入法战争才刚刚开始
新智元:今年为什么一下子掀起输入法大战,是不是对未来的入口进行争夺?
胡郁:输入法大战指大家相互诉讼还是?诉讼这个问题跟输入法本身没关系,这是公司和公司之间的商战。输入法在移动手机上的整个格局已经大体尘埃落定,讯飞输入法成为手机输入法的几个领跑者之一。我们注意到,在智能手机上用语音输入的比例不是特别高,很多时候可以用触摸的方式进行代替,但是在物联网时代也就是万物互联的时代,在很多情况下可能根本没有机会去用触摸交互,这时候语音的作用以及手势的作用和通过摄像头来拍摄一段内容不管是手写还是印刷的,这类交互就会极大地增加。在智能手机上的输入法战争已经结束了,而在物联网输入法里面战争才刚刚开始,而在这个领域讯飞又处于非常领先的位置。
新智元:虽然说语音交互有特别大的便利,你也提到了,其实使用率并不高,使用率现在到底是多少?
胡郁:要看哪种场景下,在汽车里面你会发现讯飞的飞鱼助理语音使用率高达50%—75%,这种情况下只能语音交互,比所有的手段都有效。但是在手持手机触摸交互方面,语音的使用率不同公司数据可能不一样,讯飞的数据来讲只有百分之十几,Siri可能更低。汽车只是现在能看到必须使用语音输入的一个地方,在VR领域需不需要?它的交互手段也是非常有限的,只不过VR生态没有跑起来。在将来越来越多的物联网时代场景里,语音为主智能交互为辅的时代越来越成为可能,这点不仅是我们,越来越多大公司战略往这边走,要做决策是非常难的,但大公司真正做决策,说明很多人早就提出过,而且证明战略上这个事情非常重要。
新智元:讯飞输入法跟百度、搜狗等语音输入法有什么差异?
胡郁:差异还是从两方面来看,输入法整个技术体系需要更多的技术融合,讯飞万物互联输入法不仅仅用语音输入,还用了语音控制,还用了手势识别,还有对手写体扫描,一个公司完成一两项技术容易,把这些技术整合却不是那么容易,有很高的壁垒,讯飞在这些技术上有很高的领先性。第二,讯飞的技术不仅用到自己的产品上,我们还连接各种各样的电视,连接各种各样的玩具,连接各种各样的机器人,还有车载,大量用户的环境其实为我们提供万物互联输入法的应用黏性,这不是别人通过自己的产品就能优化出来的。
新智元:从你的战略谋划,你最大的竞争对手在输入法方面到底是哪个?
胡郁:某个单点上我觉得原来在这个领域具有优势的那些单位很显然是竞争对手,比如像搜狗原来在输入法上已经具有品牌认知,这当然会对我们形成压力,这是毋庸回避的。但是单点上只是战术层面,构成不了战略层面的竞争。我不知道别人的战略怎么样,我的战略是这样的,别人的战略要从他的行为上判断。
新智元:但输入法目前并不是一个很盈利的项目,为何作为重心?
胡郁:很多东西用户价值也许很大,但是商业价值不大,这就是为什么很多事情一定要以公益的方法来做,并不是世界上所有的事情都要采用商业利益驱动的方法来做。输入法从产品上来分析是一个工具性的产品,并不带来具体的内容,也不带来具体的服务,不能建立人和人之间的连接,网络效应不是那么强,大家可能会用你,提供各种各样的信息,但是本身要想盈利,确实是蛮难的一件事情。但是它可以帮你建立品牌认知,可以帮你建立流量的导流,可以让你获得对当前世界情况的了解,这点它的作用还是非常非常大的。
新智元:机器之间为什么不采取别的方式来交互?比如视觉。
胡郁:人机之间的交互方式不是说不能用其它方式来交互。这里面有一个很有意思的问题,人类获取的所有信息,有80%来自视觉,机器看到的信息有多少来自于视觉?视觉信息的处理现在还是没有解决的问题,所以从机器的角度来讲它所获得信息的80%不一定来自于视觉。
当人和机器交互的时候,人获取信息80%来自什么?图像。如果机器和人进行交互,人拿一个图给机器看,机器看得懂吗?看不懂,机器的智商没有达到那个高度。机器对图片内容的理解,我们现在还在研究,还没有取得突破。机器获得人传递给它的信息,80%应该来自于语言,键盘和触摸也是语言,输入的东西都是语言。
还有一点非常有意思,机器能够产生图片,请问人能产生图片吗?呈现上来讲,反而机器更容易以各种各样的图片形式呈现给人,但是我想请问你,如果人要传递信息给机器,它能随时随地打印出图片或者显示出图片吗?也不行,你显示出来也没用,机器识别不了。在这个通路上,人显示图片给机器看,让机器识别这个通路是断的,构不成一个循环。信息流的流动在现在的技术条件下应该是这样的:机器更多通过图片展示给人看,人通过语言传递信息给机器传回去。
新智元:今年下半年开始,讯飞、百度、搜狗,变得比较有交集。你们是不是有企图开发自己的搜索引擎?
胡郁:昨天开完会议以后也有很多人在问,我们是不是在做语音搜索。看你如何定义搜索这个词,如果把搜索定义成在网页上搜索信息,像谷歌、百度的模式,这是一种狭义的搜索。很多人讲搜索是这么一个狭义的搜索。而人机交互的主要目的取决于人用机器来干嘛?人要跟机器交互是为了通过机器来获取功能、内容,比如看电视为了看里面的电影,要么就是服务,我通过用一个东西能获得后台给我的支持,我打电话叫一个外卖过来或者通过后面的资源达到我想要的东西或者服务。如果你通过交互、通过某种渠道得到后面的功能、内容、服务和资源,把这个过程看成人类通过交互想达到的最终目的,而这个最终目的是你获取了某些信息,它其实也是一种搜索,这是一个广义的搜索。
从狭义的搜索来讲,传统的网页搜索我们当然不做,广义的搜索后面的服务每个人都在做,现在讲的搜索或者语音搜索跟以前的网页搜索有本质的变化,如果还叫搜索的话。如何通过更加便捷的手段更快更方便地去获取这些后台的功能、内容、服务和资源,这件事情是现在所有人都做的,但是将来还叫不叫搜索,或者可以叫做问答,或者叫做交流甚至是推荐,你连说都不用说了,机器自动能够猜出你的心思并且给你推荐。
新智元:这才是智能助手的概念。
胡郁:是的。一个简单的例子,家里面都要买菜,我们家有一个买菜工人,今天说买青菜、辣椒、萝卜,第二天也讲,讲了一个月以后,有一天根本没跟他讲,他根据今天是星期几,今天天气怎么样,菜场上有什么新鲜的东西,你喜欢什么样的口味,他自动给你买回来。并不需要一一交代他买什么,他把你的习惯都摸清楚了。这些过程都是搜索,这也是为什么今日头条现在让百度这么紧张的一个主要原因。我们最终的目标都是一致的,是不是还叫搜索?这一点值得商榷。
新智元:也就是说,未来会有通过输入法对人工智能总入口控制权的争夺。
胡郁:输入法是为了解决这中间的一个部分,就是输入的问题,我通过机器人跟别人聊天,我要通过电视跟别人聊天,我要购物,中间要输入,只是为了解决输入。输入只是交互中间的一个,但是非常重要的环节。当我们在原来用GUI的时候,图像交互界面,输入法是Windows里面非常重要的功能,但是Windows里面还有很多打开窗口都是不需要输入法来工作的,输入法是交互当中最重要的功能之一,我只能这么说。
新智元:说到交互的话,它的未来就是超级助理或者是智能助理这样一个崭新的搜索引擎的升级版,是一个终极版的搜索引擎。如果这是人工智能公司最想到达的目标的话,那你觉得讯飞跟百度、搜狗等竞争当中胜算有多大?你的优势在哪里,挑战在哪里?
胡郁:这个胜算就要讲到刚才的问题,任何公司的成功特别是技术创新型的公司要从两个角度看这个事情,一个是技术创新,一个是商业模式创新。技术创新这个问题上大家可以看到科大讯飞在自然交互各项技术上的领先优势是蛮明显的,不仅仅表现在我们能够把这些技术做好,而且我们能够非常好地提出问题、定义问题,用合理的解决方案解决它,最难的是提出问题、定义问题,而不是找到方案解决它,找到问题等于成功了一半,找不着问题做的方向都是错的,找到问题等于找到了方向。我们在核心技术方面不管在感知智能还是认知智能方面,我们都有很好的积累,技术是有优势的。
第二,商业模式上传统觉得互联网公司在商业模式上有优势,但是在我看来恰恰在物联网时代会跟互联网和移动互联网会有一个很大的差异。在互联网时代互联网公司有绝对优势,但是在移动互联网时代,互联网公司没有绝对优势。在互联网时代BAT其实是绝对的垄断者,PC机生产厂商现在全球就垄断在一家厂商手里,他们有决定权吗?移动互联网情况下,整个生态里面的决定者变成两家,一家是超级APP,这个可能有一些由互联网公司产生,另外一个是什么?智能手机厂商。智能手机厂商拥有远远比PC机厂商更大决定权的话语权,因为这个设备是非常特别的一个设备,从设备上就能得到非常多的用户各种各样的信息。
在物联网时代到底是完全后台的软件互联网服务占据主动还是说像移动互联网时代有一两款硬件占据其中的核心位置,还是说它的硬件形式就是多种多样的,就是无穷无尽的,这中间有一个新形式,不管服务也好,解决方案也好,能够占据更好的模式和商业体系。从这点上来讲,对所有人都是一个全新的课题。我们看到整个产业是在不断往前演进的,并不是以单纯的互联网时代的模式在重复,对每个人都是一个挑战和机会。而在这个挑战机会当中最大的一个挑战就是现在所有的公司,每个公司都进入了人工智能时代、大数据时代、云计算时代,每个公司都希望有自己的人工智能、大数据、云计算,以往由传统的互联网公司掌握所有的用户、所有的大数据、所有的云计算,生态不会是这样的,每个公司都会有自己的这一部分,这些公司不可能把所有这部分都重新做一遍,不可能把自己的语音、图像都做一遍,没有那么多的人。
这是科大讯飞提出混合正交生态系统的思路,每个公司都会在自己的生态系统中占据一个位置,很多不同的公司在生态系统中处于正交,在正交上寻找合作的机会,哪个公司找到混合正交生态系统合作的诀窍,在商业模式上,比如如何分配利益,做一个硬件的话跟硬件厂商来分利益,怎么协作,这是关键。一个技术创新型的公司容易在这个过程中更灵活,更容易找到新的商业模式,因为没有包袱。也许原来赚钱越厉害,包袱越大,因为很难放弃自身的利益。
新智元:刚才提到的都是优势,有什么挑战?
胡郁:劣势有几个方面,一个挑战:讯飞的总部现在还是在合肥,合肥非常适合做核心技术研究,但是对整个产业的前景和动态的洞察、节奏的跟随还是有一定的挑战,人才方面对我们是一个很大的挑战。第二,资金投入上,讯飞作为一个技术创新型的企业,一直稳扎稳打,现在还不像互联网企业那样具有印钞机一样的赚钱能力,虽然也是上市公司,但是相比更大的互联网公司能够动用的资源来讲还是有限。我们好在可以动用资金的杠杆,一旦看准方向,利用外部资金解决这样的问题,当然看我们怎么做了。从上市公司本身的角度来讲,如果纯拼大资金投入的话,至少我们不占优势,但是值得庆幸,世界上不是所有的事都能用钱搞定,比如人工智能这件事情不是用钱就能解决的。
科大讯飞倡导混合正交生态系统布局
新智元百人会领袖论坛上,胡郁提到,科大讯飞正在展开名为混合正交生态布局的策略,对这一复杂的新名词,胡郁在专访中进行了解释。
新智元:最近,科大讯飞投资的人工智能企业Roobo宣布与Nuance合作,你怎么看?
胡郁:中国机器人公司都要国际化,讯飞现在重点不是在国际化上,虽然在做这方面的准备。一个机器人公司要做国际化肯定要选择国外的合作伙伴,你可以用谷歌的方案,可以用Nuance的方案,都可以。
新智元:Nuance最近的势头不是特别好。
胡郁:用Nuance也要考虑这个可能性,这不一定是加分项。
新智元:我们也要问一个问题,三季度科大讯飞的利润还是同比下降很多的。利润大幅度下降是因为投入加大吗?
胡郁:投入导致利润下降,我们现在用于研发的资源很多,大家都看到讯飞取得这么多好的技术方面的突破,在一个互联网公司做这些技术突破要多少钱?有限的投入取得这样的技术突破,一方面说明我们重视技术,另外确实很花钱,这个钱不花不行。
新智元:还有一个趋势,举个例子,像谷歌和互联网人工智能巨头在语音方面的主动进击也是造成Nuance衰落的一个原因,如果现在百度和搜狗这样的公司往语音方面来进击的话,讯飞会不会面临同样的挑战?
胡郁:我不太认同谷歌进击的目标是打败Nuance,谷歌做所有这些事情是为了它的战略,就算对Nuance有影响也是对Nuance的附带伤害,而不是打败Nuance,这是不一样的。
第二,Nuance现在大家对它的评价不好,可能跟Nuance自身的战略不是很清晰或者大家看不到其中的机会是很有关系的,这个不能怪谷歌。如果你自己战略都不清晰,你被别人附带伤害了,你怨不了别人。
第三,也许谷歌有自己的战略,但是中国的公司做起来有自己的战略还是只是仿效谷歌的战略,这是两回事,仿效别人的战略不需要懂别人干什么,别人干这个事情你说我也干这个事情,这是跟随战略。有自己的战略,指的是你知道将来趋势往什么方向发展,我处于什么样的位置,我做什么样的事情。混合正交生态系统就是因为在将来会面临这样的问题,如果你不把自己定义在混合正交生态系统里面的定位,并且为它做出相应的战略设计,设计相应的产品,找出相应的手段,就没有自己的战略。如果没有这样东西指导的话,就不存在战略。
讯飞不担心有人仿效谷歌的战略,甚至也不担心有人仿效讯飞的战略。我们担心这一点:将来整个发展会不会按照我们设想的那样去发展,不管技术上还是产品上还是整个商业生态,我们在里面做的战略动作是不是能够达到这个目的。然后才考虑到有没有人因为看到了同样的愿景做出同样的动作跟我们竞争,至少我现在还没看到这一点。我战略上想什么别人不能看到,别人只能看到谷歌和讯飞的表象而已,我当然不担心了。
关于开源平台:开发者真的需要吗?
新智元:提到平台,百度现在开源了它的平台paddlepaddle,你们有没有向公众开源的平台?
胡郁:讯飞的设想,讯飞干任何一件事情都要讲为什么,谷歌还有百度做开源平台,每个公司的战略都有自己的设计,但是这些公司并没有明确说明开源这些平台对它或者对整个生态会起到什么样的作用,在这方面我认为现在的整个态势是不够的。
根据我们现在的理解,人工智能并不是随随便便一个公司随便搭一下就能搭出来,而是针对应用积累很多数据经验,通过不间断的人员投入和调整,最后达到一个很好的用途,把这项能力给我们的开发者进行对接。源头核心技术系统创新是非常非常复杂的事情,不是通过运用简单的工具就能达到用户使用满意的程度,需要很多高通路集中度的开发。而讯飞想把这个事情在我们的手上把它做好,让我们的开发者可以低成本零门槛去使用这些技术,把他们的应用做好,产品做创新。开发者是不是需要这样一个平台自己去做它自己的人工智能系统,还是用一个最好的人工智能系统完成它的产品创新和微创新,这是对不同的生态设计的一种考虑。
新智元:讯飞现在不是提供一个工具而是提供一个半成品甚至成品给开发者使用?
胡郁:我们提供了一种环境,人工智能已有的环境,但是这个环境可以让开发者非常低门槛地去使用。整个人工智能环境来讲,开源这些工具是有帮助的,讯飞现在想建造的生态以及对整个工业界有帮助的角度来讲,我们现在主要的精力还不在开源这方面。现在对我们的战略选择来讲,不是别人做了一个东西跟随,要根据我的战略设想来完成一些工作。很多公司并没有做开源的平台,不是每个公司都提供这样的平台。我们有自己的战略。
胡郁在新智元与中国自动化学会联合举办的世界人工智能大会上发表演讲
DeepMind 的 WaveNet 很厉害?PR 而已
新智元:刚才提到卷积网络,你们使用了一种图像识别的方法做语音识别,准确率得到了大幅提升。但是DeepMind有一个Wave—net语音合成的技术。你怎么评价?
胡郁:刚才讲的都是语音识别,CNN是解决语音识别的问题,WaveNet是语音合成,我们现在做的技术比WaveNet还先进,因为WaveNet只解决了音质。但语音合成还有两个非常重要的方面,一个叫音律,一个叫音色。音色是你的嗓音听起来像深沉还是尖锐,每个人的音色不一样,音质是清脆的响还是嗡嗡的声音。还有一个音律,你讲的高高低低、快快短短、表现力的自然度跟音律有关系。我们同时对你的音质和音律进行非常精确的建模,但是WaveNet只解决了在音质的问题,只解决一个方面的问题。
DeepMind到底不是一个专业的语音公司,只是把一些思想用在我们语音处理方面,对语音的了解不够深入。谷歌做很多事情是用于PR的目的,比如AlphaGO到底是什么目的?就是做PR。我们讯飞不是不需要PR,我们不希望因为太多披露我们的技术细节导致技术泄漏的可能性。华为就很少用技术来做PR。大家思路不一样,其实我们用的技术比DeepMind要先进。
为什么谷歌说WaveNet,大家觉得它先进?其实没那么先进,只是大家吹捧,因为它有钱做这个PR,所以你觉得它先进而已。我相信业界里面很多人不承认谷歌先进。这是一个常识,大的公司有足够的宣传资源,让一般人觉得它先进而已。它做AlphaGO确实先进,这个是不能否定的。但还有一个常识,不能说AlphaGO先进,它做所有的东西都先进,这个没有逻辑性。第二,它宣布什么东西,自己讲自己先进,然后所有人都觉得它先进,这个没有逻辑性,只是PR而已。
讯飞会投资哪些类型的公司?
新智元:讯飞基金也投资了很多人工智能和机器人的公司,你们评价一家创业公司的时候最看中哪些地方?
胡郁:在投资领域已经有很详细的分析,比如一个公司创立起来最重要几个因素,有创意本身、团队、资金、商业模式、时机,确定的结论时机是最重要的,要在正确的时候做正确的事。
新智元:团队反而不重要吗?
胡郁:时机最重要,团队越努力跑得越远,时机相当于方向。我们的投资策略注重于战略投资,战略投资就要围绕我们的战略,在我缺乏的方向或者需要延伸的方向进行投入。从这个角度来讲更看重跟我们战略的配合性,比如我的战略将来要改变整个电视的内容传输、自然交互一系列的东西,围绕这个东西也许有些公司能赚很多钱,如果与我们战略不符,把资源投到这个方向意义不是特别大。这是战略投资和VC投资之间最大的区别。
新智元:选择围绕你的战略来,对你的战略是最有用的。
胡郁:对。
新智元:讯飞目前在众多人工智能领域应用领域都有布局,投入最突出是教育还有智慧城市,无人驾驶和智能医疗这些火热领域属于你负责的那一块?
胡郁:不一定。有些可能不属于消费者业务,或者不单纯属于消费者业务,更像是行业领域的应用,智慧城市跟教育更接近,而自动驾驶汽车属于汽车领域,宏观上来讲属于消费者业务,但是现在讯飞在自动驾驶技术这方面没有明确的计划和目标。我们跟汽车相关的地方,汽车人机交互做得更好。我们认为智能汽车就是需要跟人类有交互功能的机器人。
新智元:还是看重汽车怎么跟人在无人车里面交互。
胡郁:对。
新智元:不管它是怎么驾驶的?
胡郁:对。至少我们自己不会干这个事情。
新智元:人工智能大未来,讯飞在其中担当什么样的角色?
胡郁:对于最终消费者而言,人工智能最大的一个作用就是改变了人和机器之间的交互模式和我们生活的模式,具体体现在当我们需要主动跟机器进行交流的时候就会用到人工智能的人机交互功能,当我们不跟机器交流,机器猜测我们的心思给我们提供服务,用到人工智能后台的大数据分析和主动推荐的功能,无论如何,它是跟我们有一个交互的过程,所以说在下一轮物联网环境下,人工智能在消费者业务上最大的机会肯定是改变了我们和机器的交互方式。但是人工智能在与各个行业结合的过程中,就像云计算和大数据正在改变各个行业一样,需要深入到这些行业本身的刚需和具体诉求里面,如果这个行业在医疗行业里面就是要看病,就是要解决医患之间的信息不对称和矛盾的问题,人工智能帮助他解决这个问题,是这个东西加上人工智能来解决本身已经有的问题,就需要把人工智能和各个行业紧密结合到一起。这是两种不同的人工智能主要的应用模式,商业模式来讲,前面更多以To C的方式体现出来,而后面一种人工智能跟各个行业的结合以To G 和To B的方式体现出来,这个是讯飞的优势。
跟各个行业结合其实有很多行业,现在能够看得到的行业包括大的教育、医疗,今天沈晓卫院长也讲了很多,我们跟IBM已经合作了,我们讲的安全、金融,还有司法,这都是智慧城市的内容。城市里面分更多,交通算不算?建筑算不算?这也算。每个方面都非常巨大,这是两个大的方向。消费者业务里面本身有很多细化的方向,有电视、手机、车载,而人工智能与行业的结合有很多行业,主要的商业模式是有很大的差别,所以里面需要的人员也有很大差别,我们只能从这两个方向推进。
新智元:预测一下讯飞的市值什么时候能到一千亿?
胡郁:我从来不做这种预测,没有意义。如果做的好,三年之内。
高考机器人与中国大脑
新智元:讯飞超脑是讯飞研究院的一个重要项目,其中的高考机器人现在距离考北大、清华还有多大的距离?
胡郁:讯飞超脑是讯飞公司内部的一个人工智能研究项目,高考机器人其实是国家863框架下设定的计划,跟讯飞超脑不是完全一个概念。讯飞超脑包括了我们讲的认知智能的突破,而现在高考机器人是国家设立的项目,不仅讯飞在做这件事情,而是国内的很多研究机构一起共同来做这个事情,它体现了中国在认知智能方面研究领域整体的力量。无论从技术水平还是资源的建立还是最后学习系统的搭建在国际来讲都是非常快的,这个工作开展也就两年时间,在整个解题思路、资源的不断积累还有系统运行方面现在讲势头还是非常良好的。
我们正在做863项目的中期检查,要检查结束之后看到结果,经过863项目管理人员的统一审核才能对外说,现在不能透露具体的。但是采取现在认知智能突破的方法,要解决让机器人自主学习,首先技术上是可行的,但是挑战也很大,现在基本得到一个结论——对于知识获取型的题目,现在已经可以取得比较好的效果,根据你的知识存储来完成这个题目的,死记硬背的可以过了。而对于逻辑推理性非常强的,一般逻辑推理性的项目也可以进行,对于逻辑推理性特别强的,特别跟综合性或者文科比如语文里面的有些题目和地理里面的有些题目是比较难的。历史这样的知识存储型或者严谨的数学推理是可以的,数学中大部分是定理证明,定理证明在人工智能第一个发展浪潮中就已经得到比较好的解决了。
新智元:你怎么看日本要考东京大学的机器人“萝卜君”,跟它相比,中国进展情况如何?
胡郁:东大机器人开发的时间相当长,现在开发六年的时间,日本的项目是一个松散型的组织,我参加过他们的年终总结大会,跟日本东大机器人的负责人新井纪子经过多次沟通,他们没有政府的支持做这个事情,靠研发人员自发的研究组织,整体来讲我们的进展从速度上比他们快,他们准备的时间比较长,取得的数据积累也不错,他们的目标考上东京大学,东京大学的挑战比一般大学的难度更大一些。我们的高考机器人采取循序渐进的逐步成熟的方法,第一步的目标先考上大学,然后再考上好的大学,最后才能考上清华、北大,是一个逐步的过程。
新智元:也许讯飞超脑比它们更早考上北大、清华?
胡郁:现在转变方向了,我们最大的挑战不是跟谁比能更快地考上大学,而是能不能找到一条路让机器人解这些题目。中国人现在在技术上和我们在项目的推进管理能力、与应用的结合上,中国在世界上都是非常有竞争力,我对我们做出来的机器人最后通过高考是充满信心的。
新智元:这个机器人是不是更多应用了深度学习技术还是其它的什么核心技术?
胡郁:我们现在用的高考机器人其实是一个典型的智能问答和自然语言处理的核心关键性问题的求解,在这个过程中我们采用了两条腿走路的方式,一条腿采用传统的统计机器学习方法,对知识的内容进行建模、推理,保证我们有一个可用的系统。在研制这个系统的过程中,我们也将人工神经网络,对自然语言理解方面最新的科技进展全部使用到这里面,有一个基本的保底系统,传统的统计学方法对自然语言处理已经用上了,另外也在尝试最新的人工智能技术,就像这几次讯飞在国际上取得了Winograd、Knowledge Base Population第一名成绩等都用了深度神经网络的算法,可以在这上面进一步加强。
新智元:提到中国大脑的话,中国大脑计划讯飞和你个人有参与吗?请介绍一下参与的项目和进展。
胡郁:中国大脑计划是一个概念,现在国家还没有正式批复在国家层面关于中国大脑计划的任何具体信息,但是我们知道现在有两个途径正在做这方面的工作。一方面脑科学与人工智能研究方向的推进,中国科学院现在有一个脑科学人工智能卓越创新中心,在这个卓越创新中心里面我也是代表科大讯飞做了一些工作,今年是第二年,马上我们要进行年度总结,会开一个大型的讨论会,我们在会议上会呈现最新的关于脑科学和人工智能的研究成果。另外一方面,由中国工程院向科技部提出中国人工智能2.0版研究规划,是基于工业界讲的基于大数据的人工智能研究规划的体系,我们也在这中间参与了多项非常重要的关键性的研究点的规划和设计。国家也是意识到,不管采用脑科学与人工智能结合,还是大数据与人工智能结合都是非常重要的方面。应该讲两个方向都在驱动,真正国家层面的规划还在形成过程中。
文章转自新智元公众号,原文链接