人才为王,语音识别技术并非高不可攀

提及语音识别,就不能不说Nuance,就像提到PC处理器不能跨过intel,智能手机SOC不能忽略高通,Nuance有着辉煌的历史,曾经在语音领域一统江湖,就算现在,仍旧是瘦死的骆驼比马大,仍旧是全球最大的语音技术公司,专利数量和市场份额都遥遥领先。苹果iPhone手机的虚拟语音助手Siri(风传放弃)、三星的语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。Nuance曾经很热门,三星和苹果都和它传过绯闻,都要收购它,不知道为什么,都无疾而终。

Nuance的语音技术是以统计推断方法为基础,着眼于音素(音节的声音)和语境来识别话语。在识别的方面,在引擎和算法技术方面Nuance领先一个层次。毕竟有着多年的积累。

但是,在具体应用上,差距就没有那么大了——语音识别技术并非高不可攀,好的语音识别系统,很大程度上依靠经验,专利和算法什么的并没有多重要。所以只要Google们挖到牛人,自主研发出不逊于Nuance的语音识别技术并非难事——因为大家的纯识别率都在一个水平线上,差不多都达到了当前技术(主要是Nuance采用的技术)的极限,差距不再可感,但再往上走,如果基于当前的技术,路会越走越窄。如果考虑到周围环境的噪音、用户发音不准、方言等等因素,这种技术的前景并不乐观。这个时候就要从另外一个角度考虑问题了——语义理解。

语音交互,主要取决于两点:语音识别,和语义理解。

举一个例子,张飞张翼德在长坂坡嚎了一嗓子,我想,五湖四海出身的曹军们没有多少人能辨清楚张三爷的每一个字(就不信汉朝没有方言,就不信张飞说话不方言,就不信有多少人能听得懂张飞的方言),他们没有100%听清楚,但是,他们听懂了,然后害怕了,于是,撤退了。为张飞的名声添砖加瓦。

在日常生活当中,如果只从语音出发,我们根本没有可能听懂XX牌普通话,但是我们还是听懂了,更能用另一种牌子的普通话和他交流。这就涉及到语义理解。

有了语义理解的突破,语音识别才能脱离桎梏,更上一层楼

关于语义理解,目前一门技术正火,神经网络。这是一种十分炫酷的技术,将机器学习的方式模仿人类大脑的神经元,当处理的语言越来越多时,这种网络就可以逐渐理解语言。实验结果发现,这种技术可使得精确度提升25%以上,这是一个巨大的飞跃,因为这个行业只需要提升5%就具备革命意义。目前,谷歌的Google Now、微软的Cortana都采用了这种技术。人工智能大师杰弗里·希尔顿(Geoffrey Hinton)在2013年初加盟谷歌。此外,谷歌还挖走了Nuance的一些职员,其中包括在2004年挖走Nuance联合创始人迈克·科恩(Mike Cohen),让他出任谷歌的语音技术总监。至于微软,我只有一句话,微软研究院里的大牛们真的是大牛啊。感兴趣的可以查一查微软在这方面的技术。

对于Google而言,语音是生死攸关的大事。想象一下,十年或者五年后的某一天,我想登录雷锋网(公众号:雷锋网),可我一如既往的记不住雷锋的域名,只需要对着麦说一句:“登录雷锋网”,如果我想搜索什么东西,直接说就可以了。如果没有语音服务,那么,Google如何自处?微软的bing会不会咸鱼翻身?所以,Google有必要自己做。这种涉及生死的技术,还是掌握在自己手里比较踏实。

Google和微软都参合了,苹果当然不会落后。来自Wired 的消息,苹果正在着手更换掉 Nuance,打算用自己研发的语音识别技术,最快可能在iOS 9中亮相。在过去几年,苹果不仅吸纳了Siri的语音技术人才,更是将Nuance公司的多名高级语音研究人员挖角过来,包括了前研发副总裁Larry Gillick,以及来自微软语音识别项目高管Alex Acero,后者在微软工作达 20 年之久。苹果打算利用神经网络来提升语音识别率,微软研究部门主管 Peter Lee 认为,苹果大约需要花6个月才能赶上Google 和微软。2013年,苹果悄悄收购了一家语音识别技术公司Novauris Technologies,价格未知。Novauris公司以语音识别著称,由其推出的产品和语音识别系统并非简单的识别单个的词句,而是理解上下文。Novauris 也成推出一个名为 Novasystem 的分布式服务器语音识别系统,可同时处理多个并发语音请求,识别完整的句子,并分析音节结构。

说完国外,再说说国内。

科大讯飞是nuance的国内版,同样的一览众山小,当然,国内的语音识别企业不只科大讯飞一家,还有中科信利,尚科语音,捷通华声等等。百度、腾讯都在打造自己的语音团队。百度看起来最高大上。吴恩达加盟,担任百度的首席科学家,负责百度研究院,他的研究领域就是机器学习和人工智能,研究重点是深度学习(deep learning)。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。吴恩达也是牛人一枚。

看过国外百舸争流,再对比国内的欣欣向荣,在不入流的算命先生都能得出结论,语音是个大热门,是未来的趋势。

这个趋势是实实在在的,不是吹起来的泡沫。

人类打成为人类以来就使用声音,声音已经融入我们的身体,成为一种本能,它是最优的表达方式,这也就是为什么iPhone4s能够在普遍看衰的情况下大卖的关键,所有人都低估了siri,低估了人们对人机交互模式从键盘升级到声音的渴望。

在未来,也许就是不久的未来,智能家居(通过微软的cortana,已经可以实现语音开灯关灯拉窗帘。这不是Google now和siri无能,完全是因为微软开放了API,Google now和siri没有开放)、驾驶等等领域。人机交互的领域越来越广,语音的前景必将大到不敢想象。想象一下,当互联网发展到无处不在时,人们随时随地都在互联网之中,人机交互甚至可能会是时时刻刻,语音会是一个多么大的市场。

什么?你说脑波?

我觉得脑波这玩意和幸福、上帝一样,你相信它存在,它就存在。

本文作者:焱真人

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-28 03:52:15

人才为王,语音识别技术并非高不可攀的相关文章

语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用

"正在为您转接客服小二.为了提高我们的服务质量,您的通话可能会被录音."我们是这么说的,也是这么做的.每天,集团和蚂蚁的客服小二总共会接听几十万通电话,沉淀的语音数据时长超过数万小时.来自天南海北的客户将需要咨询的问题.需要吐槽的痛点.需要投诉的纠纷通过客服电话源源不断的反馈回公司.这些宝贵的客户心声在阿里会被认真的记录下来,并成为改善我们产品和服务的动力. 那么问题来了:如此大规模的语音数据沉淀下来后,如何才能被挖掘利用?阿里如此大规模的自营和外包客服小二团队,如何才能监测并不断提高

中文语音识别技术在c#中的应用(二)

中文 接上篇<中文语音识别技术在c#中的应用(一)>---但是,这个方法本身并不知道你给的字符串是什么语言,所以需要我们它这个字符串用什么语言读出.SpVoiceClass 类的Voice 属性就是用来设置语种的,我们可以通过SpVoiceClass 的GetVoices方法得到所有的语种列表,然后在根据参数选择相应的语种,比如设置语种为汉语如下所示: private void SetChinaVoice() { voice.Voice = voice.GetVoices(string.Emp

人机大战机器胜!这次是智能语音识别技术!

昨天,在阿里云的一场年会上,真枪实弹的上演了一场人机大战.一张大屏分两边,一边实时滚动的是出自阿里著名的快男姜毅的文字速记,一边出现的是阿里云iDST的科学家们在短短一年时间打造出来的语音识别系统支持下的语音转文本记录. 人机大战一触即发,随着阿里云总裁胡晓明的演讲展开,屏幕两端实时出现了各自的文本记录,从现场效果来看,难分伯仲.如果不是提前告知,观者很难感知到擂台的一端是机器人,因为可以实时的看到机器人除了记录之外,还能根据演讲人语境的变化,返回来对前面的记录进行调整. 结果评估取孙权前八分钟

机器换人!浙江高院庭审引入语音识别技术!

人工智能被认为是全球科技大发展的下一幕.从围棋人机大战,到预测<我是歌手>冠军,再到挑战高考作文.人工智能正在加速闯入大众生活的方方面面,这也包括司法领域.(深入了解语音识别技术,可详阅:https://yq.aliyun.com/topic/24) "现在开庭."6月7日上午,随着一声清脆的法槌声,被告人宣某危险驾驶案在浙江省杭州市西湖区人民法院开庭审理.法官话音未落,显示屏上就同步出现汉字:"审判长:现在开庭"--十分钟不到,庭审结束,显示屏上记录着

关于kinect的语音识别技术~求大神帮忙

问题描述 想请问一下大神,kinect语音识别技术能否能做到识别数字(0-9)及一些简单的汉字.若我在设计一个登陆界面之后,是否可以直接对kinect说账号和密码进行登陆?求大神帮忙回答谢谢~ 解决方案

揭秘:美国国安局(NSA)的语音识别技术

斯诺登泄密各种美国国安局(NSA)的"黑科技"之后,米国人民似乎意识到了无论什么样的通信方式都逃不过来自政府的监控,NSA甚至早在40年前就可以识别语音了. 语音识别技术可追溯到20世纪70年代 要想更好的理解这是怎么一回事,就要追溯到20世纪70年代:当时美国国防高级研究计划局(DARPA)首次出资研究语音识别技术,在此阶段有好几个项目都可以将语音转换成文本格式.尽管当时的进程很缓慢,但是,通过技术的不断提升,识别的进程变得越来越快,获得的数据也越来越多. DARPA信息创新办公室主

语音识别技术是什么?

问题描述 语音识别技术是什么? 解决方案 语音识别技术(Auto Speech Recognize,ASR),是让机器能够"听懂"人类的语言,然后将语音转化成文字

搜狗语音识别技术上线LSTM模型 语音搜索体验再升级

对于互联网产品来说,技术往往是突破产品发展局限的关键要素.在语音搜索领域,随着使用场景的增加和语音技术的发展,用户比预期更快地接受并习惯了使用语音搜索功能.一个小小的麦克风按钮,解放了双手,让人们在户外场景下可以更便捷地进行搜索操作.近期,作为以技术实力著称的搜狗在技术方面再发力,上线了LSTM模型,进一步提升了语音识别正确率,希望继续通过技术发展,推动产品升级.为用户提供更好的语音搜索体验. (搜狗语音搜索页面截图) 语音搜索的效果,主要取决于语音识别和搜索效果两个方面.搜狗语音搜索功能以搜狗

Android语音识别技术详解及实例代码_Android

   今天从网上找了个例子实现了语音识别,个人感觉挺好玩的,就把代码贴出来与大家分享下:          Android中主要通过RecognizerIntent来实现语音识别,其实代码比较简单,但是如果找不到设置,就会抛出异常ActivityNotFoundException,所以我们需要捕捉这个异常.而且语音识别在模拟器上是无法测试的,因为语音识别是访问google云端数据,所以如果手机的网络没有开启,就无法实现识别声音的!一定要开启手机的网络,如果手机不存在语音识别功能的话,也是无法启用