云知声梁家恩:面向移动互联网的智能语音云

第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕。本次大会以国际视野,洞悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题。大会还特别设立了云计算服务展示区域,交流国际云计算最新研究成果,展示国内云计算试点城市发展成就,分享云计算发展经验,促进全球云计算创新合作。

北京云知声创始人、CEO 梁家恩

以下是演讲实录:

梁家恩:谢谢大家。非常高兴有机会在云计算大会上跟大家分享一个云计算比较特定的应用案例,也就是语音云的应用方式,以及我们的云知声平台如何共享给广大的开发者。我的报告主要分几个方面的内容——移动互联网爆发的背景下研究语音平台、语音识别技术的突破、云知声开放语音云平台、互联网应用案例、应用开发指南。

移动互联网的爆发具有三大特点:

第一,带宽增加,费用降低。移动通信技术的快速发展,从以前的模拟时代到后来的2G、3G,甚至到4G、Wi-Fi,使我们的宽带不断加宽、费用不断降低,使终端和云平台的沟通质量非常高,同时成本越来越低。

第二,移动终端智能化。在十年前上网的机器都是PC机,它不方便携带。到现在为止有很多的智能设备,最简单的就是智能手机。现在还有一些电视设备、车载设备、穿戴设备,像谷歌眼镜,还有一些玩具,也可以通过语言进行沟通交流。

第三,云计算平台及虚拟化技术带动生产力发展。云计算的平台,包括虚拟化的技术,以及CPU、GPU的发展,使得平台的生产力越来越强大。

有这三个条件,我们可以用一个非常小的移动终端,通过移动通信的手段与强大的云计算平台建立起关系,得到非常好的线上互动服务。这是移动互联网的硬件发展趋势。

在这种条件下,我们还迎来了更大的爆发。首先是移动终端,在2013年的预测可以达到3.9亿的出货量。还有一些海量的用户,2012年底移动互联网的用户数量已经超过4亿。在移动语音搜索方面,百度去年有10%的搜索来自语音搜索,谷歌的数据是超过25%。移动产品更加注重交互的体验,现在招聘一个好的产品经理的薪资已经不亚于架构师。

这张图是从2005年到2012年以来的网民增长数量以及互联网的普及率。2005年只有1亿的互联网用户,现在已经发展到将近6亿,增长了将近6倍。互联网的普及率也从8.5%提高到42.1%。其中有一个重要的比例就是通过手机上网,从07年的5千万到2012年突破4亿,过去在4个人里面只有1个人通过手机上网,现在4个人里面已经有3个人通过手机上网。

全世界主流的语音识别系统均基于以下5个框架:

1. 要将捕捉的声音信号变成特征序列,叫做特征提取。它需要解决环境噪声、通道的问题,通道就是我们是通过麦克风,还是通过手机或者是电话将语音采集下来。第三点是消除说话人因素,像我这样具有一定口音,要把这个因素消除掉。

2. 统计声学模型。我们必须要得到足够多的人的说话发音状况。比如大家发“啊”这个音的时候,不同的人发出的声音是不一样的,以及分布状况是什么样的。最近深度神经网络学习的改进点是用在这个领域,当初是用混合高速模式建这个模型,但建模能力是比较弱的。发音准确的话就像拼音输入法,其实干扰最大的还是前面这一层,不同的人说话有不同的口音、不同的背景和不同的通道,如果把它变成一个拼音串,它跟普通的拼音输入法是一样的。

3. 发音词典。发音词典是将音映射到一个词,这个词典也非常讲究。汉语的词语量非常大,大概有7万个汉字,最常用的是2万多字。还有一些领域专用词典,比如在餐饮、地图领域用的词是不一样的。还有热词表,在互联网领域非常明显,在一定时间就会出现一个新的词,以前从来没听说过,现在它有了新的含义。还有个性化的词表,它就像每个人的通讯录。

4. 统计语言模型。不同词串出现的频率是不一样的,它是词串的概率统计分析。我们做的越大,搜索的可能性就越大。

5. 识别编码器。它实际上是一个搜索引擎,当我们得到一个特殊序列以后,可以快速找到匹配的句子。

语音识别看上去是人工智能,看上去是非常神奇的事情。我们经常举一个例子就是魔术师,对魔术师来说是通过各种手法和道具来操作,看上去是不可思议的,但都是通过扎实的基本功实现的。语音识别本身就是猜测的问题,当我看到一个语音的特征信号,我会想你最想说的是哪句话,如果我十有八九都猜对的话,你会觉得这个系统的准确性非常好。

最近取得的技术突破,最应该归结的是统计语音识别架构的成熟,我们可以通过越来越多的数据让系统变得越来越好,因为我们完全是靠人工规则根本做不到这么好的应用。整个学术界在最近十年来的进展很多,这些技术在大数据的场合下,哪些技术是真正有效的,能够把它们非常有效地整合在一起做一个精确的系统,这就要看团队的实力和理解能力。

关注DNN深度神经网络建模

这里标成红色的是DNN深度神经网络建模,这是从2009年开始爆发的应用,但在学界从06年就开始应用。

在技术方面的发展确实有突破,更重要的是计算能力以及海量数据的建模能力已经变得非常强大,在这种情况下可以做到实用化。

对于语音识别技术来说,关键的指标怎么样评估呢?有两点是非常重要的。第一,准确率。如果识别不准确,再快也没有价值。识别准确率应该怎样衡量?就是当我说一句话的时候,如果里面有100个字,能识别多少个字,我们还要减掉错字、多字或者漏字。在业界实用的系统的准确率要达到90%。十年前在实验室的时候可能会做到,但我们要在实用场合做到90%的准确率是很困难的。第二,实时系数。我们每处理一秒钟语音需要多长的计算时间做到这一点。如果实时系数小于1的情况下才可以做线上服务,如果是1的话线上服务就非常困难,现在是越快越好。

它最点的难点在什么地方呢?语音的工具都是开源的,非常成熟的,搭建起一个识别系统并不是非常困难的事情。困难的是当我们把这个系统用到一个大规模系统中的时候是参数系统的综合优化,我们能不能达到非常优秀的性能?这个并不是非常严谨的数学表述方式。我前面提到一共有5个环节,如果每个环节都做到99%的准确率,整个系统的综合准确率就能做到95%。如果每个环节只能做到95%的准确率,总体的准确率只能达到77%。所以最大的难点是能不能对每个环节做到极致。

语音识别的速度当然是越来越好,响应非常快捷,体验非常好。作为大规模部署来说,可以降低成本。每提高1倍,机器就可以缩小一半。语音识别的利用可以分为语音操控和语音输入,就类似与乐视的这种方案,可以通过声音切换台。语音输入就像云输入法。还有语音查询、问答和对话,需要加入语义理解和数据服务。

云知声开放免费SDK 不到5分钟开发一款语音识别App

这就要讲到我们的使命和服务,我们正处在市场需求爆发与语音技术突破的结合点上,我们希望提供精准、实时、专业、完整的智能语音服务。我们的服务理念是专业、创新、开放、共赢。希望我们的专业技术构建出来的平台可以为广大开发者服务,让我们共享这个移动语音的时代。

我们的语音云的发展速度比较快,我们在去年9月29号发布了公测,邀请业界相关的团队和开发者进行测试。到11月21号主持搜狗语音助手发布,分别在去年的12月和今年4月份进行了两次显著的性能提升,其中就包括深度神经建模的构建。在今天5月15日我们向开发者宣布完全开放和永久免费。只要在我们的网站上注册SDK,不管是什么样的应用和盈利模式,我们都没有保留的态度。如果觉得这样的应用已经满足大家的要求,我们会永久免费服务下去。

我们的平台首先是语音识别,将声音转化成文字。语义理解是当我们收到文字串以后,怎样知道用户真正的意图,比如他是想查天气、看电视,还是查股票、购物,这需要语义理解的功能。第三点是知识图谱,将所有的知识通过类似于数据库和图的方式联系起来,跟语义理解联系起来,就可以满足用户的意图。

在这个平台上支持了几类应用,一类是应用开发者,可以做很多方面的应用,像语音操作、查询,还包括医疗、教育、电影查询、微信路况、出门问问等等。智能客服针对的是企业信息,企业的数据是可以挂在我们的知识图谱上的,用户可以通过客服平台向企业进行咨询企业发展规划、价格、定单等等信息。还有就是广告商,企业如果想进行营销的话会推一些广告,广告商可以通过平台上的应用服务于各种终端客户。大家可以到我们的官方网站上注册下载SDK。

我们之所以敢做这样的平台,是因为我们这个创业公司有超过十年的技术积累,我们这个平台在业界可以达到领先的水平。速度是最快的,我们每说一秒钟的语音计算时间只需要0.2秒,因为是流式的传输码,在这种情况下很难感觉到识别速度的差异。比如在微信上录下一段声音,发过去再返回的时候,这个差异就非常大。包括我们的服务平台,现在已经持续无故障服务半年以上,非常稳定,而且可以按照需要扩展平台。我们的平台支持能力已经超过2千万次/天的服务能力。线上的引擎更新和系统迭代都可以在我们的平台完成,用户不需要做任何的更新,用户可以直接体验到更新的效果。

这里是线上性能的发展历程,在去年9月份,我们的平台可以达到85%的准确率。到2012年底,我们通过很多的测试和线上优化将准确率提高到90%以上。最近4个月,通过引擎的优化以及线上数据的迭代,准确率已经超过了93%。下一个版本的准确率应该可以达到95%的准确率。

我们的识别实时系数可以达到0.55倍,去年年底可以做到0.45倍的支持。这个提升的幅度很小,但如果从整个系统来说,DNN的计算量要比传统的高很多倍,当我们把计算复杂度提高的情况下,仍然可以提升系统性能,这是非常大的进步。这3个月来的进步更大,直接将速度提升了1倍以上。这是在非常普通的服务器上就可以做到的,并不需要强大的计算资源。

这是我们的开发者平台,公测开发者的增长情况。去年我们邀请了5家开发者进行测试,在这之前没有进行任何的推广,只是通过不同的用户给我们带来的影响力,包括去年年初的时候搜狗语音助手帮助我们进行了推广。目前我们的平台上已经拥有超过400个开发者。我们的客户像搜狗语音助手、乐视云电视、小i机器人、丁丁网、触宝、啪啪。

下面我介绍一下经典的应用案例:使用我们这个平台可以把逻辑结构变得非常简单,开发者只需要关注智能终端的APP,我们提供一个SDK植入在APP上面,与云平台进行交流。云平台包括负载均衡、用户数据的数据库、声学模型、语音模型等方面。用户通过客户端发布声音,极大的简化了语音识别的工作。

这是在去年11月21号支持搜狗语音助手发布应用。语音助手在11月初找到我们,我们只用了2周的时间就让语音助手顺利发布。搜狗语音助手只是用到了语音识别的功能,它把声音发回到我们的服务器上,我们把识别信息反馈回来,语义理解和搜索服务都是搜狗公司完成的,因为他们是非常强大的搜索工具,拥有强大的语义理解团队和搜索平台。

这个是我们云知声做的语音助手,这里面的数据服务跟搜狗相比差距很大,重要的还是在垂直行业的服务,包括开放的服务,我们都是通过百度和搜狗这样的平台实现的。像问天气、问电影、问电视节目,目前已经服务了超过30个领域。

第二个案例是我们自己开发的App,它非常简单,就是将我们的一段话变成文字,点确定就可以发到微信里面去。这是在今年年初做的,当时只是想让用户体验到云知声的识别率究竟有多快、多准。在我们发布的一周就在App Store免费工具排行榜排到了第一位。在触宝输入法里面可以看到我们的这种输入性能。

第三个案例是乐视超级电视,5月7号在万事达中心进行了全球首发。这是我们的语音助手在乐视超级电视上的解决方案。

开发者应该怎么使用这样一个SDK,是不是非常复杂呢?其实它非常简单,在3、4分钟之内就可以做一个语音识别的App。首先是要在注册网站上下载我们的SDK,首先是注册账号,通过邮件激活,再申请App key,可以下载相应版本的SDK。现在Android平台和iOS平台都可以下载。以Android开发为例,首先是导入SDK。第二点是需要在Manifest中配置一些权限。

这是一个非常简单的代码,一页PPT就可以写下来。有这样一个代码就可以做一个非常简单的语音输入识别的应用。在创建语音内容的时候可以把识别器加入进来,对话框中要输入申请的App key,加个show函数就可以把这个框弹出来。这个SDK是流式的处理过程,我一边说话,这个录音设备一边录音。API索引有五个最主要的函数,将SDK放在里面,第二是将识别对象设定好。第三是回调对象。第四是显示识别框。

谢谢大家,我的介绍就到这里。

(责任编辑:蒙遗善)

时间: 2024-10-05 21:40:11

云知声梁家恩:面向移动互联网的智能语音云的相关文章

云知声梁家恩:我眼中的语音市场

这是一场创业者帮助创业者的比赛,而对手是时间和市场. 昨天,巴人有幸拜访了云知声的CEO梁家恩,这个采访曲折约了大概半个月,当中也听说了这家公司融资了1亿人民币. 今年年初,我第一次来到这家公司,当时云知声还是一家不受关注的创业企业,刚刚拿了一笔小天使,不大的办公区域十几个人挤在一个几十平米的屋子里,没有前台.没有市场,清一色的技术宅,或者说:科学家. 梁家恩也是科学家之一,他与公司的CTO康恒是在中科院的硕博连读的同班同学,而这家公司内,相当一部分人也都是这种关系.他们来自各类科研所.实验室,

演讲稿丨梁家恩 物联网智能交互与服务

       各位老师.各位嘉宾,大家下午好.今天非常容幸能参加这个会,作为人工智能界的一个晚辈,包括在市场上的创业公司,今天跟李院士还有各位世界级的专家一起分享压力非常大,也非常容幸.我们其实是跟陈博士比较类似的,我的背景是中科大毕业的,后来在中科院待十年的时间.四年前我们在2012年决定,因为我觉得人工智能产业是一个秀才的团队,大家基本上都是博士,至少也是硕士以上的学历.我们当时也是从做研究开始走到人工智能创业场上,相信用我们的技术能力去改变一下这个世界.        我今天做这个分享的,

【新智元100】云知声锁定IoT赛道,AI独角兽如何应对资本寒冬

新智元100创业调研第一期走进云知声,与CEO黄伟面对面访谈,探究三大问题:如何在谷歌等开源趋势下,开发差异化产品:如何押注物联网AI,突破车载.家居.医疗领域应用:AI创业公司如何避免泡沫,应对资本寒冬.AI创业典型公司,一手数据首度曝光. "新智元100"是新智元旗下专注AI创业与投融资研究的子品牌."新智元100"正在寻找中国最具竞争力AI初创企业.欢迎企业报名参与调研评选.   新智元100创业调研第一期,走进云知声.   提到云知声,业内人士通常会同时想起

前盛大高管的创业冒险:云知声创始人走向台前

腾讯科技独家获悉,云知声CEO梁家恩不再担任CEO一职,转而专注负责技术领域.公司CEO由创始人黄伟担任.语音识别领域的明星创业公司云知声正在经历一场隐秘的高层架构调整.腾讯科技独家获悉,云知声CEO梁家恩不再担任CEO一职,转而专注负责技术领域.公司CEO由黄伟担任,正式上任已一周有余.云知声的官方网站侧面印证了该消息的真实性.云知声在公司内部的新闻稿通报,云知声荣获中国最具投资价值企业50强的称号,云知声CEO黄伟出席了本次大会并领奖,新闻稿并配了黄伟领奖的照片.在外界看来,这似乎是 空降兵

前盛大高管的创业冒险:云知声创始人从幕后走向台前

语音识别领域的明星创业公司云知声正在经历一场隐秘的高层架构调整. 腾讯科技独家获悉,云知声CEO梁家恩不再担任CEO一职,转而专注负责技术领域.公司CEO由黄伟担任,正式上任已一周有余.云知声的官方网站侧面印证了该消息的真实性.云知声在公司内部的新闻稿通报,云知声荣获中国最具投资价值企业50强的称号,云知声CEO黄伟出席了本次大会并领奖,新闻稿并配了黄伟领奖的照片.在外界看来,这似乎是 空降兵式的调整.在语音识别业内的知情者看来,则是语音识别产业核心人物的回归.黄伟终于回归了,终于从幕后走向了前

前盛大高管的创业冒险:云知声创始人浮出水面

语音识别领域的明星创业公司云知声正在经历一场隐秘的高层架构调整. 腾讯科技独家获悉,云知声CEO梁家恩不再担任CEO一职,转而专注负责技术领域.公司CEO由黄伟担任,正式上任已一周有余.云知声的官方网站侧面印证了该消息的真实性.云知声在公司内部的新闻稿通报,云知声荣获中国最具投资价值企业50强的称号,云知声CEO黄伟出席了本次大会并领奖,新闻稿并配了黄伟领奖的照片.在外界看来,这似乎是 空降兵式的调整.在语音识别业内的知情者看来,则是语音识别产业核心人物的回归."黄伟终于回归了,终于从幕后走向了

云知声CEO黄伟:AI对产业的驱动不仅是创新更是颠覆

4月13日,云知声CEO黄伟应邀出席猎云网2017人工智能产业创业创新峰会,并发表<人工智能如何促进产业化驱动>的主题演讲,结合云知声的产业落地成果,阐述了AI对产业驱动带来的颠覆式机会. 云知声CEO黄伟发表演讲 人工智能概念从1956年被提出,至今已走过六十余年,其间经历过寒冬也掀起过热潮,正在从感知智能向认知智能阶段演进.如今,科技发展也已经由移动互联迈入万物智联的时代,AI与IoT的结合将是大势所趋.在此背景下,人工智能如何促进产业化驱动?前沿的AI技术如何驱动产业的发展和落地,仍值得

当语音图像人脸识别在一起 从云知声说起

中介交易 SEO诊断 淘宝客 云主机 技术大厅 实现单个的语音.语义.人脸.图像识别并不难,难的是用户有场景需要将所有的识别技术结合在一起.如何实现?首先从云知声说起. 4月12日,云知声牵头的"全智能交互联盟"成立,除云知声外,首批进入该联盟的成员还包括语义理解技术公司"哦啦".图像识别技术公司"亮风台".人脸识别技术公司"Face++++". 云知声是国内专注语音识别及语言处理技术对移动互联网公司,为易信.乐视超级电视等产

专注语音 云知声开全智能交互之先河

中介交易 SEO诊断 淘宝客 云主机 技术大厅 4月12日下午,北京,由云知声主办的主题为开启全智能交互的新纪元活动圆满落下帷幕.活动重要议程之一:由云知声牵头主导的国内首个全智能交互联盟正式在京成立,首批联盟成员除云知声外,还包括语义理解技术公司哦啦.图像识别技术公司亮风台.人脸识别技术公司Face++++,作为首批联盟成员的四家企业CEO也在活动现场分别表达了对全智能交互的期待和鼎力支持. 云知声CEO黄伟 科幻片里的智能交互场景逐渐成为现实 活动开场,由云知声CEO黄伟带来的题为<智能交互