近日,百度公司面向开发者发布语音二期SDK,不仅增加了语义理解功能,让系统能真正的听懂用户的需求,还提供了更加灵活强大的API接口,帮助开发者更好的完成语音服务接入。此前,百度正式开放语音识别技术,提供包括跨平台的SDK、服务控制台等语音识别的底层技术系统供开发者使用。
业内人士分析:“语音交互技术是需要一个长期积累的专业技术领域,对于开发者来说,有着难以逾越的技术门槛,百度语音识别技术的开放解决了开发者的困难。”通过与百度语音合作,直接为开发者的应用增加创新的语音功能。同时,语音功能化繁为简,也令开发者更加专注自己应用的开发工作。
(去哪儿旅行App的百度语音功能界面,用户只需要对着手机说话,即可完成旅游出行搜索和预订。)
语义理解令用户使用更顺畅
此前,百度语音第一期SDK向开发者提供了长文本语音输入、语音搜索词识别,垂直领域识别等多方面的语音识别服务。并且支持“即说即得”技术,确保了用户体验的连贯性。在第一期百度语音SDK发布时,百度相关负责人曾表明将逐渐开放语义理解和TTS(语音合成)等多项面向开发者的服务。现在,第二期的百度语音SDK即携带语义理解功能姗姗而来。
语义理解即是对语义的理解能力,让机器能够理解我们所说的话。简单的理解就是,让机器学会人类的说话逻辑。 例如:“下载百度手机助手”这条指令, 通过语义理解模块的处理, 即被理解为, 用户的目的是下载App, 名称是“百度手机助手”。百度相关负责人称:“ 语音识别加上语义理解模块, 可以为开发者构建自然语言交互能力,让手机真正听懂用户,并执行用户想要的操作。”
据百度相关负责人介绍:“语义理解目前已开放包括天气、航班、地图、社交网络、手机设置、音乐、旅游等垂直领域。基本覆盖了目前主流的手机应用领域,未来百度语音还将对这些领域进行更深度的优化。”
百度语音SDK二期不仅具备强大的语义理解能力,还为开发者提供了更强大的API接口。最新的API接口支持开发者传入第三方语音数据,可将已经录好的语音数据识别为文本,以备后续调用。另外新的API接口还支持语音数据导出功能,可将用户所说的内容录入并通过回调函数返回给开发者,方便开发者分析和收集用户行为。
百度相关负责人表示:“第一期的百度语音SDK更多的是为了满足语音输入场景需求,第二期的SDK则是对语音交互的补充。使得开发者的语音交互更加智能,同时也提高了产品的执行率和可扩展性。”
二期语音识别率持续提升
语音识别率是衡量一款语音产品的重要指标,一款好的语音工具,需要有非常良好的语音识别能力,尤其我们的国家拥有非常复杂的语言环境,语音识别率更是考量一款产品好坏的硬性指标。百度语音识别率有着超越DNN技术的更贴近人类听觉认知系统的新型识别技术,带来语音输入相对错误率下降20%以上,近期还将持续提升。
世界语言中最难学的当属汉语,其复杂程度自不言而喻,加上各地方言和不同地域说话方式的不同,所以针对中文的语言识别的优化更是难上加难。百度相关负责人表示:“百度语音自成立以来,一直在不断优化语音识别能力,通过两年的攻坚和积累,百度语音识别率目前已经是业界领先水平。”
语音识别率提升是通过大量的语音运算,语言整理和长期以来百度语音开发者及用户对百度语音产品使用调教出的结果。一位资深用户表示,他每天都会尝试通过百度语音助手与手机沟通,磨合自己与手机的沟通,以提高语音执行能力”然而这些成果百度通过新一期的SDK全部共享,并且依然秉承产品发布时承诺的永久免费模式,提供给开发者使用。
业界人士表示:“语言积累需要时间和周期,针对语音识别率的积累还要漫长的过程,希望百度语音能够在这条路上走的更稳更快,为开发者提供更优秀的语音产品。”
做语音开放行业“领跑者”
百度语音技术一经发布就受到了众多移动开发者的一致好评,同时百度语音也收获了第一批合作伙伴。目前与百度语音合作的终端厂商包括:小米、魅族、中兴、金立、康佳、飞歌导航、冠捷显示器等;互联网企业包括去哪儿、爱奇艺、图吧等。
小米语音助手便是基于百度语音技术打造,双方通过深度定制合作实现了小米语音助手的各项功能,并且通过小米语音助手还能实现与小米手机操作无缝结合,实现对小米手机的特定操作。
“百度语音第二期SDK的发布,是百度对整个语音行业的成功“定调”,标志着以后的语音行业将走向开放、合作之路。更象征着百度语音从“行业领跑者”到“生态构建者”的成功转型。” 一位应用开发者说。
事实上,用技术去支持开发者的发展,一直是百度长久一直以来秉承的政策。李彦宏将百度语音技术称作“平台化和接口化的典型”。平台化揭示了百度开放战略是以技术平台服务开发者;接口化,则说明百度选定了以输出技术为搭建平台的路径。
对于追求长期发展的开发者而言,语音之路永远是一条开放之路。同样开放的心态也会促进语音行业的快速前进。
附
开发者想要接入百度语音SDK请登陆:
http://developer.baidu.com/wiki/index.php?title=docs/cplat/media/voice