智能网络的终点,是语音掌控万物吗?
三年前,当Gartner在Gartner Symposium/ITxpo 2013大会上提出“万物互联”概念时,这个世界就注定变得与以往不同。我们正从今天的“物联网”(IoT:internet of things)走入“万物互联”(IoE:internet of Everything)的时代。
人们不断追求将万事万物连接起来,从智能手机到智能家居,再到汽车的智能系统,发展日新月异。然而,这并不是万物互联的全部内涵。通过手机操控一个电插头并不是人类的终极未来——那只是一个简单的连接,更智慧的互动将被应用。在物联网之后,万物互联的下一个热点在哪里?笔者认为是语音技术。
在百度语音最近举办的语音技术媒体沟通会上,笔者看到,无论是汽车还是机器人,语音带来了真正的智能化体验。对着汽车说,”带我到最近的加油站“,汽车导航就会自动搜索距离你最近的加油站,甚至未来可以开启自动驾驶功能,帮助主人实现目标。而对着小度机器人说,“听一段悬疑小说”,小度就会为你声色并茂地朗读一段悬疑小说,先进的语音合成技术几乎完美地模拟出真人的音声、音调与情绪的起伏,令人沉浸其中。而更加令人激动的是,即便是用方言说,“想看《新白娘子传奇》”,或者以自定义的昵称“小乐”唤醒你的手机,百度语音技术也能准确识别、理解用户的需求,并启动终端设备与之互动。在会上,百度语音还免费开放了唤醒与自定义语义两项功能,将进一步推动多终端一体“音入口”普及、终端语音识别率提升。
为什么说语音技术将是智能网络的未来呢?因为目前的智能网络存在显著瓶颈。一方面,人机交互界面主要以文字、图片为主,对操作者的IT素养要求很高。在自动提款机上,想要取出一张一百元钞票,需要用户至少准确无误地按下十来个按键才能完成操作。另外一方面,人机交互的过程往往只是单向、非闭环、非全自动化的。比如在医院、高速收费口或地铁口,取卡与读卡的效率甚至还不如人工。这些种种的瓶颈,导致智能网络的操作门槛与成本都居高不下。
解决上述问题,并不能单独从操作逻辑的优化、网络或硬件的改进等入手,而需要从界面和大脑两个层次入手。首先,从互动方式看,要遵循人性。人类最天然的交流方式并非文字,而是语言。即便是婴儿,也会在呱呱落地时哇哇大哭,引发父母的关注,其一哼一哈,均蕴含着丰富的意义,慈悲的父母,总能准确地感知。因此,在交流方式上,未来的智能网络势必从现有的文字为主的书面沟通方式,进一步升级为更加人性化的语音交流。因为在交流方式上,人们最快的方式是说话,而不是书面化的人机交互。
其次,未来的智能网络,通过云能力的布置,每个设备都可以拥有一个影子“大脑”。现在的智能设备之所以不够智能,是因为没有最强大脑。空调太干燥了,不知道启动加湿器;电饭煲启动了,自动炒锅却笨到不会启动,需要人工投料、启动。这是因为他们只能接受简单的输入,没有理解和输出能力,所以又笨又哑。而伴随着百度大脑这样的技术平台不断开放,语音技术中的语音识别、语音理解、语音合成等能力就完全可以赋予给一切终端,令他们通过“云”的虫洞,瞬间免费拥有影子“最强大脑”,从而变得智能可交互,创造无限可能。
如此一来,所有的物,不论是人、设备、软件,都将会获得语境感知,增强的处理能力和更好的感应能力。智能网络的终极追求,应该是语音即可掌控万物。那么,相比目前的互联网,这样的智能网络规模将得到以万倍计算的增长,并且智能程度大幅提升——因为目前接入互联网的“物”,还只占到全部数量的1%,而且大多数“物”均沉默无语。
1980年,以太网的发明者梅特卡夫提出,网络的价值V与其用户数量n的平方成正比,这就是大名鼎鼎的梅特卡夫定律(Metcalfe’s Law)。我们可以相信,梅特卡夫定律依然将作用于万物互联时代。
2016年,百度创始人李彦宏指出,互联网即将迎来发展下一幕,推动其发展的核心动力,是人工智能。而人工智能的第一领域是语音识别。或许,我们可以将之称为李彦宏法则——无智能,不未来,无语音,不智能。
将梅特卡夫定律与李彦宏法则叠加,我们不难看到万物互联的未来,一个集合十亿甚至万亿连接的庞大网络将会出现,并且每个连接其中的“物”都能听会说。或许,这才是孔老夫子“君子动口不动手”的本意?
音声世界,见所未见!
本文转自d1net(转载)