人类几乎所有的发明都是基于如何变得更“懒”,汽车、电脑、手机、沙发……都不外如是。语言在人类文明史上可以称得上与文字并列齐驱的两大“武器”,作为沟通、记录的两大工具,基于二者才衍生出人类灿烂的文明,也是它们让人类的生活变得更为便捷。其中语言更是在人类文明早期做出了无与伦比的贡献。值得我们铭记。
基于语言而延伸出来的语音识别技术,则是近几十年科技发展道路上一颗璀璨的明珠。从磕磕绊绊的“古老”语言识别技术,到以Siri为代表的语音识别技术革命,再到现在的再度创新,引爆下一段科技进化史……语音识别技术正在创造属于自己的传奇。
追溯“古老”语音识别技术
语言自被创造出到现在已经有了几千年的历史,长久以来,人们都只是将其简单地当做沟通、表达情绪/思想的工具,并没有深刻认识到其应用在科技上会对人们的生活造成怎样的积极影响。而随着20世界50年代左右兴起的科技大爆炸,以计算机、手机、航天等为代表的一批划时代产品出现,科学家终于发现语音将能够在其中能够发挥巨大作用。此后,语音识别技术才一步步发展起来。可以说,语音识别技术的发展史只有短短数十年。
1952年,贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。这开启了语音识别技术的历史,是值得纪念的一座里程碑。随后,1960年英国的Denes等人研究成功了第一个计算机语音识别系统,将语音识别技术真正与改变人类社会结构的计算机开始挂钩。
而较大规模的语音识别技术研究则是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展,为以后语音技术技术的发展奠定了坚实基础。进入80年代以后,语音识别技术的研究重点逐渐转向大词汇量、非特定人连续语音识别,而且研究思路也发生重大变化。
20世纪90年代,语音识别技术的系统框架方面并没有重大突破。但这并不意味着语音识别技术开始停滞不前,而是语音识别技术有了真正的用武之地。从这时候开始,语音识别技术在应用及产品化方面有着很大的进展,让大众开始了解、认知、熟悉语音识别技术。因为只有看得见、摸得着的产品及应用,才能引起用户的广泛兴趣。这段时间为语音识别后来的普及立下了汗马功劳,加速了其商用化的进程。
Siri引领语音识别技术革命
在90年代以后,虽然语音识别技术开始正式商用,但因为识别率还比较低,因此饱受诟病,语音识别技术也因此一度沉寂。当然,这属于蛰伏期,等待一飞冲天的时刻。随着时代的发展,语音识别技术逐渐开始理解特定词汇。特别是在各种输入法上,语音识别技术表现的相当抢眼,让很多用户享受到输入的快感。在Windows 7和8系统上,语音输入、语音控制也成为标配功能——虽然大众更习惯于鼠标和键盘的操作,这是因为他们还没有培养出用声音进行操控的习惯。
在近几年,随着智能手机、智能电视等诸多智能设备的蓬勃发展,语音识别技术被当做一项重要的功能来进行研发。我们看到,很多智能设备都整合了全新语音识别技术。以Android系统的Voice Actions为例,它向用户提供了非常坚实可靠的语音识别引擎,很多一度流行的语音识别工具都被Voice Actions的高识别度彻底打败。但从本质看来,它和过去曾经出现的所有以语音识别技术为基础的应用并无二样,它依然要求用户要严格按照一系列特定的语法发出声音,否则它就无法理解。
直到Siri出现,它彻底改变了语音识别技术在用户心中呆板、僵硬、无聊的观点。这里还有一个小插曲,在iPhone 4S刚发布时,无数人吐槽它与iPhone 4的雷同,最后iPhone 4S却创下了iPhone系列预订、销售的全新记录,而这有很大的原因就在于Siri。用户对Siri抱有很大的兴趣,因为Siri绝不只是单纯地依靠语音识别技术,而是利用了多个学科之间的技术交叉,如语音识别技术、云计算、大数据等。由此,Siri也完全不同于以往的语音识别应用及产品。
Siri和以前用户使用过的所有语音识别产品从本质上都不相同,用户不用再按照特定的词汇规范发出声音以试图让语音应用理解,而是可以像平时说话那样不用在意自己的话是否完全符合语法规律。即使用户说的话和想表达的意思在字面上看有所出入,从严苛的语法上也文不对题,但Siri会根据上下文、人类历史以及能够理解一般人类语言的人工智能去分析,在绝大多数情况下领会用户的意思,进而给出回应——让冰冷的机器理解人们的真正想法,这已经是走在通往真正的人工智能路上。于是,我们看到在《生活大爆炸》中不敢和女孩说话的Raj却将Siri当成他的女友,甚至只要有了Siri,他就不用再和女孩接触了!Siri的魔力可见一斑。
Siri引领着语音识别技术的真正革命,自Siri出现后,引来了一大批追随者。国内的搜狗语音助手、百度语音助手等都力争要做“中国的Siri”,力求整合资金的资源,以本土化为优势,击败Siri这“外来的和尚”。国外不管是英特尔、微软还是谷歌等巨头,也都加大了语音识别技术的投入,力求有新的突破。但不管如何,Siri永远是开启这场语音革命的先行者,就像iPhone开创了智能手机革命,真正改变了人们的生活。9月13日,美国专利商标局公布一项苹果提交的专利申请,该专利名称为“通过地域语音自动输入信号识别方案”,描述的是一项先进的处理各种地区口音的语音识别技术。通俗点说,这项技术将可帮助Siri 识别更多带口音的指令。可以预见在不久的将来,无论是带有怎样的口音都能够被Siri 轻松识别。更值得一提的是,就在9月18号,伴随着iOs 7的正式发布,Siri也正式甩掉带了两年时间的“Beta”也就是测试版的标签,成为正式版。
创新浪潮再度兴起
任何事物的发展都是没有终点的,都有着再进化的潜力,语音识别技术当然也在此列。虽然Siri已经在语音识别技术领域引领了一场革命,但还远远不够。目前,语音识别技术新一轮的创新浪潮正在兴起。特别是在智能设备发展继续发展,可穿戴设备、智能手表、无人驾驶汽车等新型智能设备将再次改变人们生活的未来,语音识别技术极有可能成为人机交互的发展方向。因此语音识别技术需要变得更加自然、直观。
微软目前正在研发代号为“Cortana”的语音个人助手软件,并计划在下一个Windows Phone平台大升级中推出,以抗衡Google Now及苹果Siri,甚至还有可能引入到桌面版Windows以及Xbox这两个平台上。“Cortana”这个名字来源于著名游戏《光晕》系列中的全息人工智能助手,由此可见微软的野心勃勃。虽然在近几年微软在创新性上被苹果打击地体无完肤,但受死的骆驼比马大,来自微软的语音识别应用也许会让人大吃一惊——微软要是再不出点惹人注意的产品和应用,都快被遗忘了。
英特尔近日买下了西班牙语音识别公司Indisys,其优势在于能够结合运算语言学、人工智能、认知科学以及机械学习等语音识别技术的强大开发能力,推出适用于多平台的产品及应用。而且,Indisys旗下也有类似Siri的人工智能助理应用——Maya的助理小姐。此外,英特尔还想要将语音识别技术整合进自家的处理器中——这对PC、智能手机、笔记本、平板的影响难以想象。
科大讯飞近日称自主研发的离线语音听写引擎将于9月下旬正式发布,将应用于“讯飞输入法”等产品,以可满足用户在无网络或弱网络下对语音技术的需求。而另一家企业思必驰也宣布重新定义人机交互体验的方向,主张让机器从能听会说变成会听能做……虽然国内的语音识别技术厂商相比世界巨头还属小打小闹,但却是针对细分领域,没有大包大揽,没有豪言要改变整个语音识别领域。这不是妄自菲薄,而是尊重现实,也只将这一点一滴的努力集合起来,才会让语音识别技术得到新的发展。
未来语音识别技术会发展到哪一步,不敢妄加揣测,但它是一直处于在不断进步、创新的步调,未来我们的生活将会因此产生巨大改变——现在都已经有了些许苗头。就让我们拭目以待,期待语音识别技术发生N次革命创新。(科幻星系/文)
本文如需转载,请用以下方式联系,并注明出自科幻星系
QQ:88328702 MSN:wangk1026@hotmail.com
喜欢科技、科幻的朋友们可以加科幻星系群交流66293965