自从淼叔把有闻咖啡馆定位为记者之家之后,因为记者常来常往,不少公司也渐渐地把自己的新产品送过来展示,或者一些新服务放在有闻落地,目的也简单,占一条触达记者的捷径。
5月初,京东智能送来了他们的智能音箱DingDong。一开始倒也没多想,咖啡馆嘛总是需要音乐的,而有闻的结构是三间独立的小咖啡厅,所以音响系统也相对独立,把DingDong放在我的办公空间也不影响别的人。联网听歌的功能不新鲜,语音控制效果不错,但考虑到它的另一半血统来自于科大讯飞,也并不意外。
直到某一天,在控制音箱的App某个深层菜单里,看到了“智能家居”这一项,点进去又发现了“微联智能生活馆”,才把这台音箱与亚马逊推出的“Echo”联系在了一起,双方具有类似的野心,不过京东智能选择了更具中国特色的路径。
语音离入口仅有2秒距离
在这个微联智能生活馆中,列出了形形色色的家用电器,小到插头,大到冰箱洗衣机。这些电器的共同特点是支持基于京东微联的Joylink协议(微联是国内第一个自主研发的跨品牌、跨品类的智能家居互联互通平台。JoyLink则是第三方硬件接入微联的底层通讯协议)。2016年,京东智能联合行业伙伴向业界提供Joylink的全面开放服务,基于这样一个共同基础,所有电器都可以用一个App来操控。在前不久的CESA上,京东智能副总裁刘子豪博士也介绍过,京东微联可以让用户自己定义个性化的生活场景,截止到2015年底,微联中已经覆盖40+品类、100+一线品牌、1000+商品的智能产品,它正在成为各种智能场景的联接平台和操控入口。
然而在使用终端上,京东还开辟了一个更便捷自然的交互形式——语音,DingDong音箱就是重要的代表。其实智能家居的入口这件事已经被提及过多次,这个位置被微软觊觎过,用Xbox;被小米觊觎过,用手机;腾讯觊觎过,用微信;钢铁侠在电影里实现过,用虚拟屏幕。京东来趟这趟混水,有戏么?
乔布斯之后最伟大的商业天才贝索斯认为,这事有戏。当他的秘密研发部队Lab126(相当于Goole X之于Google)告诉他Echo智能音箱的研发计划时,他只提了一个要求:“Echo的语音反应速度要达到一秒”。当时的普遍指标是2.5到3秒。如果你说一句话话音落定之后三秒对方才有反映,正常人都会认为跟自己对话的不是人类。
Lab126克服各种技术难关把这一指标提高到1.5秒,Echo上市后果然大获成功,在两周内预订量即超过100万台——第一代iPhone达到这一速度用了70天;它还成为“黑色星期五”时亚马逊网站上售价100美元以上商品的销量冠军。贝索斯迅速将之优先级调高至战略级别,其征兆就是在“美国春晚”超级碗广告中,亚马逊把黄金般的位置给了Echo。
无论Echo还是DingDong都已经证明,相比于手机、盒子、屏幕,语音是更为流畅自然的交互方式,“动嘴不动手”一直是懒人的最高境界。更无心插柳的是,智能音箱的语音交互习惯培养门槛非常低,它最高频的应用——点歌——默认就是这种交互方式。如果人们一开始并不习惯对家电发号施令,点一首歌会让他们自然得多,也更容易接纳智能音箱作为对话对象。
语音控制的两个门槛
不过,到了中国市场,做成这件事需要的不仅仅是一款产品。在技术端,京东云已经积累了大量消费者和产品数据,接下来就是用场景活化这些数据;在渠道端,京东是最大的家电销售平台,对支持Joylink协议的产品略加倾斜即可发挥巨大的影响力;在用户端,微联计划解决了家电产品“非互联网化”的痼疾,使销售不再是生意的最后一步,而是用户数据采集的开始,也是用户价值拓展到整个产品生命周期的关键一环。而通过这三端的运营,京东也希望能超脱流量商人这个渐渐失去吸引力的价值模式,将自己升级为拥有云计算和智能家庭两大金矿的科技企业形象。
当然现在就对以DingDong音箱为代表的语音控制产品的前景做判断为时尚早,毕竟它还有两个关键问题仍是悬疑待解:首先,能否跨越贝索斯划下的那条线?让语音交互的过程真正地像“与人交互”而不是“与机器交互”,这是决定其自然交互体验的一个门槛,也是该产品能否“人性化”的核心问题;其次,Joylink协议内置到家电之中,其成本控制和性能稳定性乃至安全性保障,还有待市场的检验。
关于第二个疑问,此前它已经让大批智能家居行业的先行者折戟于红海;而在第一个疑问方面,京东前不久在第二届亚洲消费电子展(CES Asia 2016)发布了新一代语音交互系统AIUI(人工智能时代的人机交互界面),并推出首次搭载该技术的DingDong智能音箱新品DingDong灵动版。
AIUI的核心是智能化的多轮对话管理和上下文理解,“全双工”的交互模式可以让人机对话时随时打断进行信息补充或者纠错,更接近人与人的沟通。 可以说,AIUI采用了另一种方式来解决“贝索斯要求”,它并没有在语音响应时间上强行突破,而是在“多轮对话”上下了工夫。此前,人类跟机器对话的层级基本都停留在一级深度,也就是说,每次对话都是一个完整的问题。例如问SIRI:离我最近的饭馆在哪里?SIRI说500米外的眉州东坡;下一个问题仍然要完整表述:去眉州东坡怎么走?而在多轮对话技术下,这个问题可以直接简化为“怎么走?”还可以一直对话下去,例如问路况如何、帮助打车等等。能够进行多轮对话而非一级深度对话,同样是AI之所以像人的一个重要表现。
京东CTO张晨告诉淼叔,将在8月份推出从AIUI到微联、Joylink协议整体的一个升级服务包,这其中的语音AI除了科大讯飞之外,还引入了微软的深层对话技术(即上文所说的多轮对话)。如此也可以看出,京东正在加强与技术方的合作,努力将互联互通和自然交互技术落实到具体应用中,在融入到用户的场景化使用里。
毕竟,会下棋的人工智能对大多数人来说只是谈资;真正能上手或者“动嘴”尝试,才能让人工智能走下神坛,成为惠及民众生活的新动力。当“对话”这种最为温和自然的方式成为智能家庭沟通的主旋律,顺服的,不仅仅是那些电器吧。
本文转自d1net(转载)