语音:人机交互的新革命

语言的创造是人类的一个拐点,最初,语言是控制杆,它将我们的思想转化为工具。后来,我们适应工具,把我们的表达转化成TA的语言。今天,我们正在让工具生命化,变成耳提面命的助手。这个漫长故事的核心在于:我们与工具如何互动。苹果iPhone 4S的发布着实让Siri火了一把,人机交互的革命史又翻开了新的篇章,但是Siri并不完美,尤其对于国人来说,不支持中文是最大的不足,不过这也给其他厂商留下了机会,其中科大讯飞的语音技术最为抢眼,也使其成为了这场人机交互新革命有力的推动者之一。

前谷歌中国的高级研究员、《浪潮之巅》的作者吴军老师在微博里半开玩笑半地说:“语音识别(在产品上)忽悠人从90年代开始,大约每十年一个周期,最后的结果相同,就是大家发现这是个玩具,而不是工具。第一波人长大了,走了,对科技不敏感了,第二波人当时还在上中小学,没上过当,现在赶着来试一试。如此反复。不过我相信最后有一次不再是忽悠人,但是不是现在这一次?”

语音技术+移动终端=?

换个角度,在PC时代,为什么语音就从来没有成为过主流的人机交互方式?

虽然代表性的产品如IBM的ViaVoice已经达到了很高的识别水平。中文识别的准确率达到了95%以上,还能识别多种方言,每分钟输入150字。但它并没有能成为一款打动大众消费者的产品。

中国最大的语音技术厂商科大讯飞,长期只能在一个几十亿规模的B2B市场里打拼。在机器合成语音市场,讯飞流畅、达到播音员水准的语音产品已经占到了70%以上的份额。今天大多数企业客户服务中心的人工语音服务,都是采用科大讯飞的技术。

但这又怎样?PC是一个固定的环境,人们早已经习惯了键盘+鼠标的交互方式。大多数人已经习惯于键盘打字而不是讲话,因此,语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候,为什么要学习使用Dvorak键盘呢?

更要命的是,任何一款语音识别软件都需要大量的训练以便识别用户的语音特征,来提高准确性。有多少人会天天对着一台电脑喃喃自语呢?

语音技术更广泛的普及需要两件事情:更好更方便的应用和主要使用语音的生活场景。而移动互联网的勃兴正好满足了这些条件:

第一, 智能终端屏幕较小,手指输入的准确率和速度都要低于PC,这是移动互联网必须要面对的物理局限。

第二, 移动互联网终端有众多的传感器,就像人的感官,为人机交互和生活化应用创造了条件。

第三, 移动互联网使得语音识别公司采集海量语料成为可能,通过应用可以让交互更频繁,加快机器学习速度,改进用户体验。

所以,当siri遇到iPhone,奇妙的化学作用发生了,一个沉寂几十年的鸡肋技术活了。

用户到底要什么?

我老妈从来没有理解过智能手机,她只会打电话,不会发短信,更不用说其它应用。直到我的安卓手机装上了讯飞语音输入法。当我对着手机说出“吃葡萄不吐皮”的绕口令,并发出短信之时,她拿着自己500块钱的诺基亚问我:“我这个上面能用吗?”

这就是用户的需求,当然是最原始的那一种。

你如果看过好莱坞大导演斯皮尔伯格的电影《A I》,相信会对人工智能有一定了解,通过人工智能技术,机器人可以把“对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考、服务代表全部融合到一起”。Siri的技术正源自人工智能。事实上,Siri让我们看到了人机互动的一种全新可能。语言,从来都被看做是人类特有的技能,而一夕之间,一部手机拥有了这样的能力,科幻变成现实的日子呼之欲出。

更重要的是,当机器有一天能够真正理解人类的语言,并做出回应,世界打开了无限的想象空间。

说一个人名,手机就会从冗长的通讯录中找到他;语音操控汽车、语音搜索地图、语音寻找酒店;未来,在办公室里对手机说一句话,家里的厨房就开始烹饪……

好吧,我承认我的想象力还不够丰富。

“移动互联网融入了人们的生活,人们可以在任何时间任何地点接入互联网,也可以享受互联网辅助的各种生活服务。在移动互联网时代,互联网服务和生活服务的界限在消失。”名叫采铜的专业人士在知乎网站上回答“Siri会不会是一个革命?”时认为:“在服务互联网化的时代,语音将解放人们的双手,降低了移动互联网的使用门槛,让输入更便捷,服务效率更高,从而成为“移动互联网发展的一个里程碑”。

下这样的结论也许还为时略早。但看看中国大公司们的动作吧。腾讯在微信中推出语音消息、搜狐和新浪在微博中嵌入语音微博服务,百度发布语音搜素、大众点评的语音订餐……

这说明什么?只有一种可能:趋势。

想想我们人类自己吧,我们能够克服自己基因中的惰性吗?每一次科技进步,不都是让人更加免于肉体的劳作吗?能用嘴说,我们未来还会抓狂地动大拇指吗?

谁更懂中文?

我们有理由着迷于Siri,无论是因为调戏它的乐趣,还是因为对苹果的崇拜。

但创新工厂的创始人李开复老师坦言:“分析苹果Siri:1)语音识别够精确,但语义理解困难,2)语义理解靠自然语言分析不够,需要海量语料和反馈自动学习,3)Siri可用度不足,苹果利用“调戏”获取语料,学习后可提升可用度,4)防噪仍是问题,苹果靠4S特殊硬件,5)应用结合困难,适合苹果封闭系统,6)用户对助手有“人智慧”的过高期望。”

所以,新iPad上还只有语音输入技术,没有Siri。

更何况,我们还不得不面对一个绕不开的问题:它目前不会讲中文。

不要忘记了那些美国互联网巨头在中国的失败,亚马逊、谷歌、Groupon,还有根本进不来的“非死不可”(Facebook)和推特。只有懂中国话,才有成功的可能,这是中国留给骄傲巨头们的教训,语言更是如此。

算算中文里仅一个“我”有多少种说法吧。这样的段子在网上很容易找到。面对全世界最复杂的语言——中文,您相信一家美国公司能在短时间内攻克吗?反正我是不信的。

Siri代表了语音交互技术的一个方向,但它不一定是中文语音识别的未来。

那么我们现在创业做一家中国的Siri怎么样?创新工厂的李开复老师在微博上提出了四点质疑:1)智能手机主界面是手触,语音助手解决了什么真正用户需求和痛处?2)如何克服后台海量数据学习技术门槛?全球只有一个公司有这个技术。3)应用谁开发?自己开发难扩张,用别人的应用整合不佳影响体验,4)语音服务器和带宽成本较大,如何克服?

你能接住他这又一盆冷水吗?

“语音技术是一个典型的交叉科学,涉及到很多方面,不是说有钱就能做的,是有相当高的门槛。你可以去APP下载一个我们的软件体验一下”。科大讯飞副总江涛坦言。

作为A股上市公司,讯飞起家于商业应用。而更多普通人认识讯飞,还是从讯飞语音输入法开始的。在没有大规模推广的情况下,安卓版讯飞输入法的下载量已经突破千万次,达到了与QQ输入法、百度输入法相同的数量级。在苹果主导的iOS平台上,用语音发短信的讯飞口讯也一直名列APP排行榜前列。

讯飞凭什么?

语音识别技术的核心竞争力在于识别率,这是毋庸置疑的事情。讯飞有效利用了自己在国内的先发优势,率先推出了语音云服务,将数据的上下行打通。在推出讯飞语音输入法的同时,与腾讯、新浪、点评等第三方公司展开技术合作,积累了2500万以上的用户。

用户体验语音服务的最初动力是好玩儿,而非实用。Siri的调戏其实同样意在快速扩充语音数据库,提高机器识别率。据科大讯飞副总裁江涛介绍,在语音云推出的一年时间里,讯飞的系统识别率从60%提高到了85%,日常用语识别率超过95%。这也是移动互联网带来的改变。

科大讯飞目前通过两种方式来培育语音识别业务,一是开发自身的产品讯飞口讯和讯飞语音输入法,发展语音云、丰富数据库,公司语音输入法目前对标准普通话的识别正确率已提升到95%以上;二是向应用软件开发商们开放语音云平台接入,目前包括挖财在内的理财记账软件、凯立德在内的地图软件,都已内置了科大讯飞的语音识别功能。

经过一年半的低调完善,现在讯飞即将发布新的语音云系统。更重要的是,讯飞要免费打开自己的云接口,让更多开发者来免费使用开发应用。本次发布的新系统加入了大量个性化服务,比如方言识别、注册用户的个性化语言识别等。

新一代的语音产品不可能仅仅满足于简单的搜索和语音识别。它能够自主分析用户发出的口语指令,并给出确切的回应和指导,完全不需要用户预选学习使用方法。换句话说,它将是具有“人智慧”的语音助手。

从一家B2B的产品公司,到一家提供云服务的B2C产品公司,这是科大讯飞的一次质变。

回到李开复四问中的第二问,他也许错了。世界上迈过了后台海量数据学习技术门槛的公司并非只有一家。所以,有没有必要去做一家中国的Siri其实是一个假问题,一定意义上说,Siri才是美国的讯飞(讯飞成立于1999年,而Siri不过是苹果收购的产物)。

2012年,对TA说?

感谢雷锋网的投递

时间: 2024-10-27 09:55:49

语音:人机交互的新革命的相关文章

RFID技术应用带来服装企业的新“革命”

1 服装企业现状 花色.款式.品种变化得很快,这是服装类产品的特点,因此对服装生产企业的管理生产.库存.分发周转速度有较高的要求.过季的品种要很快地清出柜台,换上新的品种.存货不能积压,积压的产品会给企业造成很大的负担.控制存货的数量,保证销售部门有合适的品种放在柜台上,满足顾客的需要;同时也要保证生产出的产品大部分都可以售出,不会产生大量滞销存货是鞋帽服装业企业要考虑的关键问题.同时,服装企业经常遇到一下几个问题:人为因素造成的错装.漏装.多装等装箱数据统计不准确而且慢;盘点需要大量人工作业好

建站大师上线——一场网站建设新革命的到来

2012年4月15日由站长之家倾力打造的建站大师(http://www.313.com)网站服务平台正式上线了!这意味着互联网行业内一场关于网站建设服务的新革命到来.改革新视野何谓新视野?非同以往仅提供网站建设买卖的市场角色,建站大师创新推出网站服务平台模式,致力于为中文网站提供最优服务平台.引入千万设计师.服务商,为广大用户提供多样化网站设计.应用接入.网站维护等一站式服务,以透明的价格,专业的服务,放心的交易为本,整合行业资源,共同开启网站建设的新航道.革命新规划此次推出的建站大师网站服务平

微软Exchange 引领邮局新革命

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 很多企业在10年前就开始使用企业邮箱系统,但传统的企业邮箱系统中有存在着一个致命性问题,它的功能仅仅体现在收发邮件和传递信息两个方面,已经不能满足现代企业移动办公的需要. 业内著名企业上海有孚计算机网络有限公司,不仅是中国顶级的互联网应用服务解决方案提供商,拥有多项国际领先的自主及专有技术.为解决以上问题,旗下知名品牌"阳光互联&q

世界工厂网:推动农业新革命与跨界大佬“秀”起来

随着政策扶持农业的力度不断加大,农业投资成了新热点,柳传志.刘强东.周鸿祎.宋卫平等IT大佬.房产大鳄齐齐跨界农业,各路资本也追风而上,进军农业产业的各个环节,颇有"搅局"之势,相较之下,传统农业从业者无论是资源整合,资本运作,还是品牌运营,销售渠道拓展,各方面都显得势单力薄,能力不足.全球知名B2B电子商务平台世界工厂网以帮助中小型制造企业为己任,目前入驻商家已达2400万,每日浏览量达450万,下设11个行业子网站,现代农业网发展迅速,为农业相关企业提供优质信息资讯和一站式电商服务

专访网罗天下CEO:培训网站新革命时代即将来临

中介交易 SEO诊断 淘宝客 云主机 技术大厅 背景介绍:2008年10月18日,由清华大学国家CIMS中心联合中国成教协会培工委.北京航空航天大学软件学院.华清俱乐部主办的大型知识讲堂<新时代大讲堂>将正式启动."网罗天下"作为此次高端知识讲座活动的网络支持方,将为参与<新时代大讲堂>的专家学者展示其学术研究成果,促进学术理论转化为现实生产力提供一个全面的知识互助和合作平台. 随着北京奥运会的圆满闭幕,新一轮的职场硝烟已悄然点起.美国次贷危机所引发的经济萧条已

美太美厨掀起史无前例的厨房新革命

要健康,不要油烟!要舒适,不要窒息!假若你幻想自己有一天也如电视上那些神奇的画面一般,在宽敞明亮的厨房里,身心愉悦地做饭,而不必深受油烟咳嗽的困扰,那么请选择美太美厨智能集成灶!假如你希望自己掌勺的锅碗瓢盆也能在厨房这个封闭狭小的空间里自由曼舞,那么请选择美太美厨智能集成灶! 来自最新技术研发企业的美太美厨智能集成灶,集抽油烟机.燃气灶.消毒柜.储藏柜.电磁炉等多种功能于一体,五件合一,占地却只有0.5平米,既时尚美观又极大地节约了空间,而且功能也比以往的厨房电器更强大,它不是几种产品简单的相加

创维黄宏生的新革命

乔布斯路线在波诡云谲的商业史上找到两条轨迹相似的个人曲线是一件有趣的事.美国苹果电脑创始人乔布斯和中国家电业巨头之一创维集团创始人黄宏生便符合这一类型.生于1956年的黄宏生比乔布斯小一岁,也算是同龄人了.当1997年乔布斯完成创业史上的一次人生变革时,黄宏生正处在事业巅峰的半山腰--进入深圳纳税前三甲的创维彼时是中国彩电军团中唯一的民营企业,三年后创维在香港上市,黄宏生名声如日中天. 2004年对黄宏生和乔布斯来说都是不幸的一年.前者被 查出此之前四年间"涉嫌串谋盗窃及诈骗",被香港

朱雀引爆探险新革命《神鬼传奇》26日重磅更新

年度魔幻探险网游<神鬼传奇>即将于4月26日迎来重磅更新,颇具东方特色的朱雀神兽携海量全新内容降临这片魔幻大陆,百万勇士将面临残酷新挑战,全新装备--朱雀法器荣耀登场,更有全新BOSS.新地图.新玩法同步更新,让你轻松拥有更轻松的魔幻探险之旅. <神鬼传奇>四月朱雀篇前瞻:>>>http://event51.wanmei.com/sgcq/201104/introgame/index.htm 神秘朱雀即将降临 新BOSS.新法器震撼更新 朱雀乃上古四大神兽之一,为

网络带来就业方式新革命

网络带来就业方式新革命 本报讯(记者代丽丽)人力资源和http://www.aliyun.com/zixun/aggregation/31969.html">社会保障部日前公布的<网络创业促进就业研究报告>指出,我国网络创业就业已累计制造岗位超过1000万个,成为创业就业新的增长点. 人社部此次调查研究的网络创业就业,具体来讲包括三种情况:一是创业者,即开办网店的业主(含合伙经营者):二是直接从业者,即创业者本人及其雇佣的从业人员:三是间接就业者,即与网商有紧密联系并由其经营链