云知声梁家恩：面向移动互联网的智能语音云

第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕。本次大会以国际视野，洞悉全球云计算发展趋势，并从应用出发，探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题。大会还特别设立了云计算服务展示区域，交流国际云计算最新研究成果，展示国内云计算试点城市发展成就，分享云计算发展经验，促进全球云计算创新合作。

北京云知声创始人、CEO 梁家恩

以下是演讲实录：

梁家恩：谢谢大家。非常高兴有机会在云计算大会上跟大家分享一个云计算比较特定的应用案例，也就是语音云的应用方式，以及我们的云知声平台如何共享给广大的开发者。我的报告主要分几个方面的内容——移动互联网爆发的背景下研究语音平台、语音识别技术的突破、云知声开放语音云平台、互联网应用案例、应用开发指南。

移动互联网的爆发具有三大特点：

第一，带宽增加，费用降低。移动通信技术的快速发展，从以前的模拟时代到后来的2G、3G，甚至到4G、Wi-Fi，使我们的宽带不断加宽、费用不断降低，使终端和云平台的沟通质量非常高，同时成本越来越低。

第二，移动终端智能化。在十年前上网的机器都是PC机，它不方便携带。到现在为止有很多的智能设备，最简单的就是智能手机。现在还有一些电视设备、车载设备、穿戴设备，像谷歌眼镜，还有一些玩具，也可以通过语言进行沟通交流。

第三，云计算平台及虚拟化技术带动生产力发展。云计算的平台，包括虚拟化的技术，以及CPU、GPU的发展，使得平台的生产力越来越强大。

有这三个条件，我们可以用一个非常小的移动终端，通过移动通信的手段与强大的云计算平台建立起关系，得到非常好的线上互动服务。这是移动互联网的硬件发展趋势。

在这种条件下，我们还迎来了更大的爆发。首先是移动终端，在2013年的预测可以达到3.9亿的出货量。还有一些海量的用户，2012年底移动互联网的用户数量已经超过4亿。在移动语音搜索方面，百度去年有10%的搜索来自语音搜索，谷歌的数据是超过25%。移动产品更加注重交互的体验，现在招聘一个好的产品经理的薪资已经不亚于架构师。

这张图是从2005年到2012年以来的网民增长数量以及互联网的普及率。2005年只有1亿的互联网用户，现在已经发展到将近6亿，增长了将近6倍。互联网的普及率也从8.5%提高到42.1%。其中有一个重要的比例就是通过手机上网，从07年的5千万到2012年突破4亿，过去在4个人里面只有1个人通过手机上网，现在4个人里面已经有3个人通过手机上网。

全世界主流的语音识别系统均基于以下5个框架：

1. 要将捕捉的声音信号变成特征序列，叫做特征提取。它需要解决环境噪声、通道的问题，通道就是我们是通过麦克风，还是通过手机或者是电话将语音采集下来。第三点是消除说话人因素，像我这样具有一定口音，要把这个因素消除掉。

2. 统计声学模型。我们必须要得到足够多的人的说话发音状况。比如大家发“啊”这个音的时候，不同的人发出的声音是不一样的，以及分布状况是什么样的。最近深度神经网络学习的改进点是用在这个领域，当初是用混合高速模式建这个模型，但建模能力是比较弱的。发音准确的话就像拼音输入法，其实干扰最大的还是前面这一层，不同的人说话有不同的口音、不同的背景和不同的通道，如果把它变成一个拼音串，它跟普通的拼音输入法是一样的。

3. 发音词典。发音词典是将音映射到一个词，这个词典也非常讲究。汉语的词语量非常大，大概有7万个汉字，最常用的是2万多字。还有一些领域专用词典，比如在餐饮、地图领域用的词是不一样的。还有热词表，在互联网领域非常明显，在一定时间就会出现一个新的词，以前从来没听说过，现在它有了新的含义。还有个性化的词表，它就像每个人的通讯录。

4. 统计语言模型。不同词串出现的频率是不一样的，它是词串的概率统计分析。我们做的越大，搜索的可能性就越大。

5. 识别编码器。它实际上是一个搜索引擎，当我们得到一个特殊序列以后，可以快速找到匹配的句子。

语音识别看上去是人工智能，看上去是非常神奇的事情。我们经常举一个例子就是魔术师，对魔术师来说是通过各种手法和道具来操作，看上去是不可思议的，但都是通过扎实的基本功实现的。语音识别本身就是猜测的问题，当我看到一个语音的特征信号，我会想你最想说的是哪句话，如果我十有八九都猜对的话，你会觉得这个系统的准确性非常好。

最近取得的技术突破，最应该归结的是统计语音识别架构的成熟，我们可以通过越来越多的数据让系统变得越来越好，因为我们完全是靠人工规则根本做不到这么好的应用。整个学术界在最近十年来的进展很多，这些技术在大数据的场合下，哪些技术是真正有效的，能够把它们非常有效地整合在一起做一个精确的系统，这就要看团队的实力和理解能力。

关注DNN深度神经网络建模

这里标成红色的是DNN深度神经网络建模，这是从2009年开始爆发的应用，但在学界从06年就开始应用。

在技术方面的发展确实有突破，更重要的是计算能力以及海量数据的建模能力已经变得非常强大，在这种情况下可以做到实用化。

对于语音识别技术来说，关键的指标怎么样评估呢？有两点是非常重要的。第一，准确率。如果识别不准确，再快也没有价值。识别准确率应该怎样衡量？就是当我说一句话的时候，如果里面有100个字，能识别多少个字，我们还要减掉错字、多字或者漏字。在业界实用的系统的准确率要达到90%。十年前在实验室的时候可能会做到，但我们要在实用场合做到90%的准确率是很困难的。第二，实时系数。我们每处理一秒钟语音需要多长的计算时间做到这一点。如果实时系数小于1的情况下才可以做线上服务，如果是1的话线上服务就非常困难，现在是越快越好。

它最点的难点在什么地方呢？语音的工具都是开源的，非常成熟的，搭建起一个识别系统并不是非常困难的事情。困难的是当我们把这个系统用到一个大规模系统中的时候是参数系统的综合优化，我们能不能达到非常优秀的性能？这个并不是非常严谨的数学表述方式。我前面提到一共有5个环节，如果每个环节都做到99%的准确率，整个系统的综合准确率就能做到95%。如果每个环节只能做到95%的准确率，总体的准确率只能达到77%。所以最大的难点是能不能对每个环节做到极致。

语音识别的速度当然是越来越好，响应非常快捷，体验非常好。作为大规模部署来说，可以降低成本。每提高1倍，机器就可以缩小一半。语音识别的利用可以分为语音操控和语音输入，就类似与乐视的这种方案，可以通过声音切换台。语音输入就像云输入法。还有语音查询、问答和对话，需要加入语义理解和数据服务。

云知声开放免费SDK 不到5分钟开发一款语音识别App

这就要讲到我们的使命和服务，我们正处在市场需求爆发与语音技术突破的结合点上，我们希望提供精准、实时、专业、完整的智能语音服务。我们的服务理念是专业、创新、开放、共赢。希望我们的专业技术构建出来的平台可以为广大开发者服务，让我们共享这个移动语音的时代。

我们的语音云的发展速度比较快，我们在去年9月29号发布了公测，邀请业界相关的团队和开发者进行测试。到11月21号主持搜狗语音助手发布，分别在去年的12月和今年4月份进行了两次显著的性能提升，其中就包括深度神经建模的构建。在今天5月15日我们向开发者宣布完全开放和永久免费。只要在我们的网站上注册SDK，不管是什么样的应用和盈利模式，我们都没有保留的态度。如果觉得这样的应用已经满足大家的要求，我们会永久免费服务下去。

我们的平台首先是语音识别，将声音转化成文字。语义理解是当我们收到文字串以后，怎样知道用户真正的意图，比如他是想查天气、看电视，还是查股票、购物，这需要语义理解的功能。第三点是知识图谱，将所有的知识通过类似于数据库和图的方式联系起来，跟语义理解联系起来，就可以满足用户的意图。

在这个平台上支持了几类应用，一类是应用开发者，可以做很多方面的应用，像语音操作、查询，还包括医疗、教育、电影查询、微信路况、出门问问等等。智能客服针对的是企业信息，企业的数据是可以挂在我们的知识图谱上的，用户可以通过客服平台向企业进行咨询企业发展规划、价格、定单等等信息。还有就是广告商，企业如果想进行营销的话会推一些广告，广告商可以通过平台上的应用服务于各种终端客户。大家可以到我们的官方网站上注册下载SDK。

我们之所以敢做这样的平台，是因为我们这个创业公司有超过十年的技术积累，我们这个平台在业界可以达到领先的水平。速度是最快的，我们每说一秒钟的语音计算时间只需要0.2秒，因为是流式的传输码，在这种情况下很难感觉到识别速度的差异。比如在微信上录下一段声音，发过去再返回的时候，这个差异就非常大。包括我们的服务平台，现在已经持续无故障服务半年以上，非常稳定，而且可以按照需要扩展平台。我们的平台支持能力已经超过2千万次/天的服务能力。线上的引擎更新和系统迭代都可以在我们的平台完成，用户不需要做任何的更新，用户可以直接体验到更新的效果。

这里是线上性能的发展历程，在去年9月份，我们的平台可以达到85%的准确率。到2012年底，我们通过很多的测试和线上优化将准确率提高到90%以上。最近4个月，通过引擎的优化以及线上数据的迭代，准确率已经超过了93%。下一个版本的准确率应该可以达到95%的准确率。

我们的识别实时系数可以达到0.55倍，去年年底可以做到0.45倍的支持。这个提升的幅度很小，但如果从整个系统来说，DNN的计算量要比传统的高很多倍，当我们把计算复杂度提高的情况下，仍然可以提升系统性能，这是非常大的进步。这3个月来的进步更大，直接将速度提升了1倍以上。这是在非常普通的服务器上就可以做到的，并不需要强大的计算资源。

这是我们的开发者平台，公测开发者的增长情况。去年我们邀请了5家开发者进行测试，在这之前没有进行任何的推广，只是通过不同的用户给我们带来的影响力，包括去年年初的时候搜狗语音助手帮助我们进行了推广。目前我们的平台上已经拥有超过400个开发者。我们的客户像搜狗语音助手、乐视云电视、小i机器人、丁丁网、触宝、啪啪。

下面我介绍一下经典的应用案例：使用我们这个平台可以把逻辑结构变得非常简单，开发者只需要关注智能终端的APP，我们提供一个SDK植入在APP上面，与云平台进行交流。云平台包括负载均衡、用户数据的数据库、声学模型、语音模型等方面。用户通过客户端发布声音，极大的简化了语音识别的工作。

这是在去年11月21号支持搜狗语音助手发布应用。语音助手在11月初找到我们，我们只用了2周的时间就让语音助手顺利发布。搜狗语音助手只是用到了语音识别的功能，它把声音发回到我们的服务器上，我们把识别信息反馈回来，语义理解和搜索服务都是搜狗公司完成的，因为他们是非常强大的搜索工具，拥有强大的语义理解团队和搜索平台。

这个是我们云知声做的语音助手，这里面的数据服务跟搜狗相比差距很大，重要的还是在垂直行业的服务，包括开放的服务，我们都是通过百度和搜狗这样的平台实现的。像问天气、问电影、问电视节目，目前已经服务了超过30个领域。

第二个案例是我们自己开发的App，它非常简单，就是将我们的一段话变成文字，点确定就可以发到微信里面去。这是在今年年初做的，当时只是想让用户体验到云知声的识别率究竟有多快、多准。在我们发布的一周就在App Store免费工具排行榜排到了第一位。在触宝输入法里面可以看到我们的这种输入性能。

第三个案例是乐视超级电视，5月7号在万事达中心进行了全球首发。这是我们的语音助手在乐视超级电视上的解决方案。

开发者应该怎么使用这样一个SDK，是不是非常复杂呢？其实它非常简单，在3、4分钟之内就可以做一个语音识别的App。首先是要在注册网站上下载我们的SDK，首先是注册账号，通过邮件激活，再申请App key，可以下载相应版本的SDK。现在Android平台和iOS平台都可以下载。以Android开发为例，首先是导入SDK。第二点是需要在Manifest中配置一些权限。

这是一个非常简单的代码，一页PPT就可以写下来。有这样一个代码就可以做一个非常简单的语音输入识别的应用。在创建语音内容的时候可以把识别器加入进来，对话框中要输入申请的App key，加个show函数就可以把这个框弹出来。这个SDK是流式的处理过程，我一边说话，这个录音设备一边录音。API索引有五个最主要的函数，将SDK放在里面，第二是将识别对象设定好。第三是回调对象。第四是显示识别框。

谢谢大家，我的介绍就到这里。

(责任编辑：蒙遗善)

时间： 2024-10-05 21:40:11

云知声梁家恩：面向移动互联网的智能语音云

云知声梁家恩：面向移动互联网的智能语音云的相关文章

云知声梁家恩:我眼中的语音市场

演讲稿丨梁家恩物联网智能交互与服务

【新智元100】云知声锁定IoT赛道，AI独角兽如何应对资本寒冬

前盛大高管的创业冒险：云知声创始人走向台前

前盛大高管的创业冒险：云知声创始人从幕后走向台前

前盛大高管的创业冒险：云知声创始人浮出水面

云知声CEO黄伟：AI对产业的驱动不仅是创新更是颠覆

当语音图像人脸识别在一起从云知声说起

专注语音云知声开全智能交互之先河