语音识别,从古老、革命到再度创新

人类几乎所有的发明都是基于如何变得更“懒”,汽车、电脑、手机、沙发……都不外如是。语言在人类文明史上可以称得上与文字并列齐驱的两大“武器”,作为沟通、记录的两大工具,基于二者才衍生出人类灿烂的文明,也是它们让人类的生活变得更为便捷。其中语言更是在人类文明早期做出了无与伦比的贡献。值得我们铭记。

基于语言而延伸出来的语音识别技术,则是近几十年科技发展道路上一颗璀璨的明珠。从磕磕绊绊的“古老”语言识别技术,到以Siri为代表的语音识别技术革命,再到现在的再度创新,引爆下一段科技进化史……语音识别技术正在创造属于自己的传奇。

追溯“古老”语音识别技术

语言自被创造出到现在已经有了几千年的历史,长久以来,人们都只是将其简单地当做沟通、表达情绪/思想的工具,并没有深刻认识到其应用在科技上会对人们的生活造成怎样的积极影响。而随着20世界50年代左右兴起的科技大爆炸,以计算机、手机、航天等为代表的一批划时代产品出现,科学家终于发现语音将能够在其中能够发挥巨大作用。此后,语音识别技术才一步步发展起来。可以说,语音识别技术的发展史只有短短数十年。

1952年,贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。这开启了语音识别技术的历史,是值得纪念的一座里程碑。随后,1960年英国的Denes等人研究成功了第一个计算机语音识别系统,将语音识别技术真正与改变人类社会结构的计算机开始挂钩。

而较大规模的语音识别技术研究则是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展,为以后语音技术技术的发展奠定了坚实基础。进入80年代以后,语音识别技术的研究重点逐渐转向大词汇量、非特定人连续语音识别,而且研究思路也发生重大变化。

20世纪90年代,语音识别技术的系统框架方面并没有重大突破。但这并不意味着语音识别技术开始停滞不前,而是语音识别技术有了真正的用武之地。从这时候开始,语音识别技术在应用及产品化方面有着很大的进展,让大众开始了解、认知、熟悉语音识别技术。因为只有看得见、摸得着的产品及应用,才能引起用户的广泛兴趣。这段时间为语音识别后来的普及立下了汗马功劳,加速了其商用化的进程。

Siri引领语音识别技术革命

在90年代以后,虽然语音识别技术开始正式商用,但因为识别率还比较低,因此饱受诟病,语音识别技术也因此一度沉寂。当然,这属于蛰伏期,等待一飞冲天的时刻。随着时代的发展,语音识别技术逐渐开始理解特定词汇。特别是在各种输入法上,语音识别技术表现的相当抢眼,让很多用户享受到输入的快感。在Windows 7和8系统上,语音输入、语音控制也成为标配功能——虽然大众更习惯于鼠标和键盘的操作,这是因为他们还没有培养出用声音进行操控的习惯。

在近几年,随着智能手机、智能电视等诸多智能设备的蓬勃发展,语音识别技术被当做一项重要的功能来进行研发。我们看到,很多智能设备都整合了全新语音识别技术。以Android系统的Voice Actions为例,它向用户提供了非常坚实可靠的语音识别引擎,很多一度流行的语音识别工具都被Voice Actions的高识别度彻底打败。但从本质看来,它和过去曾经出现的所有以语音识别技术为基础的应用并无二样,它依然要求用户要严格按照一系列特定的语法发出声音,否则它就无法理解。

直到Siri出现,它彻底改变了语音识别技术在用户心中呆板、僵硬、无聊的观点。这里还有一个小插曲,在iPhone 4S刚发布时,无数人吐槽它与iPhone 4的雷同,最后iPhone 4S却创下了iPhone系列预订、销售的全新记录,而这有很大的原因就在于Siri。用户对Siri抱有很大的兴趣,因为Siri绝不只是单纯地依靠语音识别技术,而是利用了多个学科之间的技术交叉,如语音识别技术、云计算、大数据等。由此,Siri也完全不同于以往的语音识别应用及产品。

Siri和以前用户使用过的所有语音识别产品从本质上都不相同,用户不用再按照特定的词汇规范发出声音以试图让语音应用理解,而是可以像平时说话那样不用在意自己的话是否完全符合语法规律。即使用户说的话和想表达的意思在字面上看有所出入,从严苛的语法上也文不对题,但Siri会根据上下文、人类历史以及能够理解一般人类语言的人工智能去分析,在绝大多数情况下领会用户的意思,进而给出回应——让冰冷的机器理解人们的真正想法,这已经是走在通往真正的人工智能路上。于是,我们看到在《生活大爆炸》中不敢和女孩说话的Raj却将Siri当成他的女友,甚至只要有了Siri,他就不用再和女孩接触了!Siri的魔力可见一斑。

Siri引领着语音识别技术的真正革命,自Siri出现后,引来了一大批追随者。国内的搜狗语音助手、百度语音助手等都力争要做“中国的Siri”,力求整合资金的资源,以本土化为优势,击败Siri这“外来的和尚”。国外不管是英特尔、微软还是谷歌等巨头,也都加大了语音识别技术的投入,力求有新的突破。但不管如何,Siri永远是开启这场语音革命的先行者,就像iPhone开创了智能手机革命,真正改变了人们的生活。9月13日,美国专利商标局公布一项苹果提交的专利申请,该专利名称为“通过地域语音自动输入信号识别方案”,描述的是一项先进的处理各种地区口音的语音识别技术。通俗点说,这项技术将可帮助Siri 识别更多带口音的指令。可以预见在不久的将来,无论是带有怎样的口音都能够被Siri 轻松识别。更值得一提的是,就在9月18号,伴随着iOs 7的正式发布,Siri也正式甩掉带了两年时间的“Beta”也就是测试版的标签,成为正式版。

创新浪潮再度兴起

任何事物的发展都是没有终点的,都有着再进化的潜力,语音识别技术当然也在此列。虽然Siri已经在语音识别技术领域引领了一场革命,但还远远不够。目前,语音识别技术新一轮的创新浪潮正在兴起。特别是在智能设备发展继续发展,可穿戴设备、智能手表、无人驾驶汽车等新型智能设备将再次改变人们生活的未来,语音识别技术极有可能成为人机交互的发展方向。因此语音识别技术需要变得更加自然、直观。

微软目前正在研发代号为“Cortana”的语音个人助手软件,并计划在下一个Windows Phone平台大升级中推出,以抗衡Google Now及苹果Siri,甚至还有可能引入到桌面版Windows以及Xbox这两个平台上。“Cortana”这个名字来源于著名游戏《光晕》系列中的全息人工智能助手,由此可见微软的野心勃勃。虽然在近几年微软在创新性上被苹果打击地体无完肤,但受死的骆驼比马大,来自微软的语音识别应用也许会让人大吃一惊——微软要是再不出点惹人注意的产品和应用,都快被遗忘了。

英特尔近日买下了西班牙语音识别公司Indisys,其优势在于能够结合运算语言学、人工智能、认知科学以及机械学习等语音识别技术的强大开发能力,推出适用于多平台的产品及应用。而且,Indisys旗下也有类似Siri的人工智能助理应用——Maya的助理小姐。此外,英特尔还想要将语音识别技术整合进自家的处理器中——这对PC、智能手机、笔记本、平板的影响难以想象。

科大讯飞近日称自主研发的离线语音听写引擎将于9月下旬正式发布,将应用于“讯飞输入法”等产品,以可满足用户在无网络或弱网络下对语音技术的需求。而另一家企业思必驰也宣布重新定义人机交互体验的方向,主张让机器从能听会说变成会听能做……虽然国内的语音识别技术厂商相比世界巨头还属小打小闹,但却是针对细分领域,没有大包大揽,没有豪言要改变整个语音识别领域。这不是妄自菲薄,而是尊重现实,也只将这一点一滴的努力集合起来,才会让语音识别技术得到新的发展。

未来语音识别技术会发展到哪一步,不敢妄加揣测,但它是一直处于在不断进步、创新的步调,未来我们的生活将会因此产生巨大改变——现在都已经有了些许苗头。就让我们拭目以待,期待语音识别技术发生N次革命创新。(科幻星系/文)

本文如需转载,请用以下方式联系,并注明出自科幻星系

QQ:88328702 MSN:wangk1026@hotmail.com

喜欢科技、科幻的朋友们可以加科幻星系群交流66293965

时间: 2024-09-20 20:43:54

语音识别,从古老、革命到再度创新的相关文章

中兴通讯大容量干线光网络技术再度创新

飞象网讯近日,中兴通讯(000063,股吧)宣布在大容量干线光网络领域再度创新,其推出的自适应智能光网络系统于近期荣获了深圳市科技进步奖. 随着3G/4G业务流量的爆炸性增长,大容量干线网络升级已成为全球运营商最迫切需求.中兴通讯在大容量交换系统领域的研究开发始终走在业界前列,关键技术创新多次创造新的世界纪录:全球首次实现单信道11.2Tbit/s的光信号传输640公里:首次实现24Tbit/s(24x1.3Tbit/s)波分复用:携手德国电信成功完成现网100G/400G/1T信号的2450公

UUSee网络电视再度创新,与国内领先的体育赛事数据分析供应商贝泰科技达成战略合作

2005年以来,以北京奥运为标志,UUSee依托自身技术优势,在体育直播领域不断拓展,整合海量资源,推出了包括体育赛事导航.全面的体育资讯.专业详细的体育赛事数据等内容产品:UUSee还创新性的对客户端进行升级,从单一的视频播放窗口改变成视频窗口与网友即时互动分享.比赛数据实时更新.相关资讯报道等融为一体的全新观赛体验,让您不仅能收看比赛,更能与明星.网友互动分享比赛过程中的激动心情,真正体验到 "专业体育 激情共享"! UUSee网络电视不断创新功能,优化用户观看体验:海报墙的导航方

周鸿祎:创新并不等于颠覆 客户体验才最重要

奇虎360公司董事长周鸿祎曾这样阐释"创新",不是拥有"发明"."模式"才叫创新,一个不起眼的改进如能让用户体验变得流畅.简单,那也是创新"."打动用户的这个点可以称之为微创新.微创新甚至可以改变一个企业的生存轨迹".以用户的角度来改善用户的体验,将用户的感受作为核心,也正是一些中国互联网企业从贪大务虚向踏实务实前行的第一步. 中国的企业似乎一直是沉陷于山寨化的泥潭中,即使是在充满了创新高科技的互联网IT企业,同样也

盛大语音创新院正式成立 神秘项目即将发布

盛大网络旗下的盛大创新院又添新成员--"盛大语音创新院"于10月12日正式授牌成立.这是盛大创新院成立两年来成功孵化的独立团队,也是继百度和http://www.aliyun.com/zixun/aggregation/12801.html">谷歌中国之后,国内又一企业正式进入语音识别领域. 盛大创新院成立两年来,一直致力于从事新产品.新技术的创新工作.而语音合成是公司看好并下决心投入的战略方向之一.其团队成员由来自清华.中科大. Microsoft.Motorola

组织创新:打造零时间组织

独家企划 2011中国管理创新年度报告 组织创新篇 让每个人都成为管理者,实现高效运营 ■ 文 / 孙兵 梁利峥 企业根据发展的不同阶段和层次,可以分为直线型初级发展阶段.职能型的成长阶段.事业部制成熟发展阶段.董事会制的深化发展阶段.经过30年的发展,中国崛起了一大批大中型企业,大部分企业进入到职能型的成长阶段,部分企业进入了事业部制的成熟发展阶段,仅有少数企业发展到董事会制的发展阶段. 金融风暴让一大批西方企业纷纷陷入破产倒闭的危机,人们开始反思西方现代企业管理体系.有没有更理想.更智慧的组

海外运营商如何践行云服务?

在国内,受到移动互联网.OTT.智能终端等多方面冲击,一向处在产业链核心的电信运营商的稳固位置开始摇摇欲坠,话音业务.短信等传统的电信业务也在不同程度上有所萎缩.这种威胁对于国外电信运营商而言更是有增无减,不过这也为云计算应用于电信业开启了市场契机. 相比于国内运营商的云计算之路,海外运营商的经验更显丰富,在经历了初期的"资源租赁"和"服务托管"后,目前很多国外电信运营商都已经对公有云和混合云实施进一步的探索,同时对于各垂直的市场细分领域,一些国外运营商也试图通过收

50位中外AI领袖论剑AI World,世界人工智能大会10大亮点全回顾

AI大片震撼开启AI World 2017 新智元AI World 2017世界人工智能大会开场视频:如果你没有亲临现场,一定要看,年度AI大片,不容错过! 2017年11月8日,由新智元主办的 AI World 2017 世界人工智能大会在北京国家会议中心隆重启幕,国内外上百位AI领袖作了覆盖技术.学术和产业最前沿的报告和讨论.超过2000名 AI 精英共襄盛会. 会上,新智元创始人兼CEO杨静与助理来也CTO胡一川发布了全球首个AI专家互动资讯平台"新智元V享圈",基于此打造百万级

触动人心:如何设计优秀的iPhone应用

在海量的应用里面如何脱颖而出成为了设计师们永远不变的话题,今天从用户使用的角度给大家介绍一下如何设计一款优秀的iphone应用. 用户是如何使用iPhone应用的 啊!美丽的梦!温情的iPhone应用设计师的美梦!每当用户沉浸于他设计的应用之中时,设计师就像梦见自己沐浴着阳光在漫步.我们的指尖在屏幕上滑动.点击.缩放.旋转.轻拂,就像芭蕾舞女那优美的脚步.我们很快就理解了屏幕上的每个图标.每个点击的含义;我们很快就看到了每个按钮;我们很快就能驾驭iPhone所有的变化和手势.我们了解应用,因为我

国内网站炒作策划误区

国内.COM策划的误区 早在两年以前我就用"群魔乱舞"一词来戏称九十年代的中国策划界的怪现象,到了21 世纪这种情况不仅没有改观,反而有了更多形式的怪事.在互联网时代相当一部分网站更是达到了疯狂欺世的地步,注意力经济成了炒作经济,欺骗经济!不知道那些企业的领头羊要把企业带向何方? 策划误区现状:一喊二炒三装懂. 一曰:喊! 企业的知名度并不一定带来企业的美誉度,美誉度是一个企业品牌含金量的重要指标之一.花点时间上网看一看就知道有多少网站在打着第一的大旗,喊着最大的口号,尽管消费者尚未认