扎克伯格的尴尬与 AI 的真实进展

近来扎克伯格向记者公开演示了他 2016 年的作品,一个类似 Jarvis 的人工智能助手,从记者的描述来看,这人工智能助手大部分时候还比较不错,但在语音交互环节则不太理想,对此腾讯科技做了如下报道:

扎克伯格还建立了响应语音指令的系统,并通过定制iOS应用控制。但这部分展示不太理想,他重复了四次指令才让系统弄明白:天黑前不要开灯。扎克伯格略显尴尬地说:“喔,这应该是它最失败的表现了!”。不过,Jarvis播放音乐的展示还算成功。扎克伯格下令:“给我们放段音乐吧!”几秒钟后,大卫·库塔(David Guetta)的《Would I Lie to You》 开始通过客厅扬声器响起来。他说了两次“把音量调高”后,系统照做无误。最后,他同样说了两次才让系统停止播放。

这非常有意思,因为从新闻来看“天黑前不要开灯”和“把音量调高”的失误显然都不是命令理解(语义)上有问题,否则你说八百遍 Jarvis 该不好使还是不好使。如果不是语义的问题,那显然就会和各大公司所宣称的已经被解决的问题——语音识别有关。

标准环境解决≠真实效果好

关于语音识别的精度今年官方的报道一般是这样的:

11月21日到23日,搜狗、百度和科大讯飞三家公司接连召开了三场发布会向外界展示了自己在语音识别和机器翻译等方面的最新进展。值得注意的是,这三家公司几乎在同一时段宣布了各自中文语音识别准确率达到了97%。

类似的报道也会发生在微软等的身上,我们假设Facebook做的不是太差,水平也与此类似达到97%的准确率。97%的具体含义是100个单词上只有3个错误(删除、被替换、被插入),那么问题就来了,如果真实环境里真的达到了这个精度,那么小扎的演示绝对不应该是上面这个样子。

那问题出在那里?

关键问题并不复杂,扎克伯格用手机当做家庭里的终端,这样距离稍微一远,环境稍微嘈杂一点,那再好的手机也没办法帮Jarvis听清楚你在说什么。手机本身是设计给近场用的,手机上的语音识别基本也是给近场优化过的,怎么也不能弥补远场上带来的不适应。

扎克伯格对此非常坦诚,他在博客这么写道:

In the case of Jarvis, training an AI that you'll talk to at close range is also different from training a system you'll talk to from all the way across the room, like Echo. These systems are more specialized than it appears, and that implies we are further off from having general systems than it might seem.(原文:

https://www.facebook.com/notes/mark-zuckerberg/building-jarvis/10154361492931634/)

上面这段英文简单来讲就是,语音识别更多时候是专门场景下好用,想做一个万能的版本仍然还很遥远。语音识别只能做限定场景的最佳。

但事实上扎克伯格仍然只认识到了部分问题,因为单纯靠改善语音识别比如做一个匹配远场的版本也还是解决不了他遇到的问题(上面说的重复指示几次系统才起作用问题)。我们可以注意到开始播放音乐之后,报道中提到的两条命令都需要重复两次,这很可能是音乐自身对语音识别形成了干扰,这种情形下单纯的优化语音识别(不管远场还是近场)是解决不了问题的。

扎克伯格接下来的路

如果扎克伯格不放弃这事,而是持续对此进行改善,那下面会发生什么?他可能会掉到坑里面。他用了150小时做到上面那程度,但很可能再花1500小时,效果并没有实质性改善。

整个语音交互事实上依赖于三层:声学的信号处理(麦克风阵列+声学算法),语音识别(SR),自然语言理解(NLU)。扎克伯格演示时的问题核心原因不在于自然语言理解(语义),而在于声学与语音识别。声学和语音识别的关系可以大致类比成耳朵和大脑,如果声学部分的信号很差,那相当于耳朵不好使,基本语音识别的算法再怎么好也不可能把命令是什么弄清楚。

扎克伯格如果要优化效果,那么基本方法有下面几类:

一种可能是扎克伯格觉得真实场景下的信号优化(声学、硬件等)也没什么,找几个人做做就完了,如果这么想 Facebook 可能会自己组建个硬件、声学团队来做Echo Dot那样的终端。但这么做很可能短期就不会有下次演示了。因为让语音识别匹配前端声学信号是容易的,但反过来让牵涉硬件和物理的声学来适应语音识别则基本会做挂。而在互联网公司里通常后端偏算法的势力会大,所以很容易走到前面那条路上去(这事情国内至少做挂了两拨人了)。国内的大公司很容易走上这条路,但从分工习惯来看,国外公司更愿意在技术栈上卡住特定位置,非自己核心的部分会更愿意开放给其它人,所以扎克伯格这么干的可能性不高,除非他觉得自己也得搞Amazon Echo那种产品了。

一种可能是扎克伯格和深度学习科学家思路一致,认为所有东西都可以通过深度学习在云端算法层面来解决。这种思路下,就会通过深度学习来做降噪等信号层面的工作,用算法挑战各种物理层面的问题。如果走上这条路,那估计短期也不会有下次演示了,因为他碰到的问题并非单纯的降噪问题,回声抵消、Beamforming、降噪、声源定向这些东西是关联在一起的,指望深度学习短期突破这些问题更像科研上的一种设想而非工程上的一种实践。“设想”是说可以成为一种探索的思路,但结果完全没谱,高度不确定,相当于把不确定性引入产品开发之中。

一种可能是扎克伯格走下一步的时候想的很清楚,知道自己这类公司的能力边界,因此把这部分开放出去,让专业的人做专业的事。物理的事情归物理,算法的事情归算法,这样的话就会满世界找声学和远场语音识别供货商,但这反倒是最快的一种方式。

不知道扎克伯格具体会走那条路,如果是最后一种,我们声智科技这样的公司应该会很快收到消息。

打破原子与比特的边界

扎克伯格这件事情事实上也提供了一个跳出来看AI的机会。

下图是 Jarvis 的系统架构图:

一般来讲,从产品体验上可以看出技术水平,从架构图则可以看出来认知上的差异。

根据上图,显然在扎克伯格这里 Jarvis 被理解成了一个命令控制型的系统,但感知这环节被忽略了,尽管扎克伯格自己在文章里也提到感知上下文是非常关键的一个环节(Understanding context is important for any AI)。

这种理解在互联网企业那里很可能非常有代表性,但问题就在于感知恰恰是打造一个初级的Jarvis这样的系统时最难的环节。因为感知总是要打穿原子和比特的边界。Language Processing、Speech Recognition、Face Recognition 总是立刻可用的,只受限于算法的发展程度和数据,但感知部分不是这样,不单要算法行,器件、生产都要行才能有好的结果。比如说麦克风阵列,你算法再好但MEMS麦克风不给力,那你一样抓瞎。如果要说的短板的话,在深度学习突破后,感知这一环节才是真的短板。

这就涉及到这次AI突破的一个深层次问题:这次的AI起于深度学习的突破,但真要想创造价值并不能停步在深度学习本身。关键原因就在于其AI创造价值的链条比较长,必须打破软硬的边界,补全整个链条,价值才会体现出来。几乎我们所有能想到的大机会都是这样,语音交互(需要打穿声学和识别边界),自动驾驶(打穿计算机视觉、雷达、机械控制的边界)等。这部分难度通常是被忽略了,似乎是有几个深度学习专家问题就可以搞定一切问题。后者不是不行,但要限定在特定类别的事情上,比如图普科技做的鉴黄等。正是同时做好软硬这部分在拉长投资-回报的周期。投资和创业如果对此没有自己的判断,那准备的耐心可能就不够。

小结

近来和AI各方面的人(创业者、投资人、科学家、媒体)接触下来,发现大家基本都在思考这样两个问题:

第一,本次AI浪潮会不会和前两次一样很快冷下来?

第二,落地点到底在那里,究竟还要多久?

对于第一个问题到现在为止还没碰到任何一个人认为这次AI浪潮会冷到前两次那样。对于第二个问题,大的落地点上大家基本也已经达成了共识(语音交互、AR、自动驾驶等),争议最大的就是启动期究竟还要持续多久这一点。从两个维度来判断,这个时间更可能是在3年左右,一是产品经过两个周期的优化会更加成熟;一个是计算能力、基础设施到那个时候也会变的足够强大和便利(过去三年Training速度提高了60倍,比摩尔定律还快。Intel则正在推出集成度更高的服务器)。

文章转自新智元公众号,原文链接

时间: 2024-10-25 05:34:18

扎克伯格的尴尬与 AI 的真实进展的相关文章

扎克伯格的尴尬与AI的真实进展

雷锋网(公众号:雷锋网)按:本文作者李智勇,十年栈道程序员,有一个好玩的公号:zuomoshi(琢磨事). 近来扎克伯格向记者公开演示了他2016年的作品,一个类似Jarvis的人工智能助手,从记者的描述来看,这人工智能助手大部分时候还比较不错,但在语音交互环节则不太理想,对此媒体做了如下报道: 扎克伯格还建立了响应语音指令的系统,并通过定制iOS应用控制.但这部分展示不太理想,他重复了四次指令才让系统弄明白:天黑前不要开灯.扎克伯格略显尴尬地说:"喔,这应该是它最失败的表现了!".

扎克伯格的十年展望:2026年的Facebook是什么样?

业界媒体The Verge对马克·扎克伯格进行了专访,由于Facebook对这次采访的限定是只讨论该公司未来10年的展望,所以记者和扎克伯格谈到了Facebook在搭建互联网基础设施时面临的障碍,Facebook希望在增强现实(AR)研发中发挥的作用,以及为什么虚拟现实(VR)很有可能会重新定义下一代计算.他们还谈到了扎克伯格打造人工智能(AI)管家的进展,以及使用机器人来操作烤箱时遇到的问题.整个采访分为8个主题,它们是: 1 让世界上所有人都上网 2 Aquila无人机升空 3 Terrag

【马斯克为 AI 怼上扎克伯格】人工智能威胁人类文明,历史争论总结

马斯克谈"AI 威胁"又成新闻头条,这次怼他的是扎克伯格 Facebook CEO 马克·扎克伯格在线上与其他大人物公开互动并不常见.当他这样做的时候,一般都很友善,并且经过编排,比如说当年他请微软创始人比尔·盖茨帮忙做哈佛大学演讲. 但是,他对特斯拉和 SpaceX 的 CEO 伊隆·马斯克就没有那么亲切了.在本周一的一场 Facebook 现场视频问答中,扎克伯格被人问到他对马斯克呼吁世人积极监管人工智能的看法--马斯克在这方面一直很高调,表示要在机器人变得比人更聪明.变危险前开始

Facebook早期员工评价扎克伯格的Jarvis AI代码——富可敌国之后尚能饭否? | 深度

雷锋网(公众号:雷锋网)按:本文作者覃超,前Facebook软件工程师,现为FREES资本技术合伙人. 文章来自@覃超 的知乎回答:如何评价扎克伯格自己写的 Jarvis AI? 此问题缘起于扎克伯格2016年12月19日发布的文章Building Jarvis,小扎称自己打造了一个像钢铁侠里 Jarvis 那样的家庭AI助手.雷锋网已在第一时间翻译出这篇笔记:<扎克伯格开发笔记:打造Jarvis的日子,我庆幸自己从未停止过编程>,建议没看过的读者可以先浏览一下. Zuck原贴 Jarvis

扎克伯格尴尬往事盘点:因钱财与好友反目成仇

那些年,我们都曾2过 导语:美国科技博客网站BusinessInsider周五发表了署名尼古拉斯•卡尔森(Nicholas Carlson)的文章,详细点评了扎克伯格做过的11件傻事. 以下为文章全文: Facebook将于今年5月上市,届时身为该公司创始人兼CEO的马克•扎克伯格 (Mark Zuckerberg)的身价将达到250亿美元.创造一笔如此巨额的财富,不仅需要智慧.领导力以及勤劳,运气也是不可或缺的因素.扎克伯格也曾犯下许 多错误,但幸运的是每次他总能化险为夷,或是亡羊补牢. 1.

扎克伯格一年时间亲手打造的 Jarvis:聪明的半成品,老婆的“眼中钉” | 深度

雷锋网按:小扎最近宣布完成了他的年度目标:家庭 AI 助手 Jarvis.这是一个自制的亚马逊 Alexa 服务,由扎克伯格一手打造完成.在这篇文章中,你可以了解到一名日理万机的 CEO 是如何利用个人时间调试完成这个年度小目标的.虽然它已经非常聪明,但偶尔--还是会出点小岔子啦.雷锋网编译,未经许可不得转载. 当新工程师初入 Facebook 大家庭,无论他们是刚毕业的菜鸟还是行业资深老司机,都需要花六周时间在新兵训练营 Bootcamp(创立于 2006 年)接受训练.在这段时间里,他们将深

扎克伯格和他背后的“战士”们

或许是受影视作品的影响,也或许是身边的明星高管过于耀眼,扎克伯格在企业管理上的才华常常被人忽视,印象里,他似乎还是那个一身稚气的哈佛本科生.但很多人可能不知道,扎克伯格的管理.用人经验,早已受到硅谷企业推崇甚至效仿. 看过电影<社交网络>的人都知道,Facebook的雏形是哈佛校园里一个上不了台面的"选美网站",而在电影中,扎克伯格也被塑造为一个盗窃女生照片.搞垮校园网的玩世不恭的极客少年. 现实中,人们对扎克伯格的刻板印象也无外乎"极客"."

扎克伯格开发笔记:打造Jarvis的日子,我庆幸自己从未停止过编程

雷锋网按:作为一家科技巨头的CEO,扎克伯格却依然保持写代码的习惯.可怕的自制力,超强的执行力,当比你有钱的人还比你更聪明更勤奋的时候,雷锋网编辑不禁开始怀疑人生. 以下文章来自扎克伯格的笔记"Building Jarvis",由雷锋网(公众号:雷锋网)编译,未经许可不得转载. 2016年我给自己制定了一个挑战:打造一个像钢铁侠里 Jarvis 那样的家庭AI助手. 我的目的是了解人工智能发展的现状.虽然人工智能已经比人们能察觉到的要先进得多,但是依然还有很长的路要走.通过完成这些挑战

扎克伯格发6千字长文,谈Facebook未来愿景和世界该有的样子

据美联社报道,昨日,Facebook CEO扎克伯格发表了一篇长达6000字的宣言,从宣言内容来看,它更像是一篇乌托邦式的社会指南,而非社交巨头的商业企划书.在这份宣言中,他问道:"我们真的在努力打造大家都满意的世界了吗?" 眼下,大多数人用Facebook与家人和朋友保持联系,不过扎克伯格希望鼓励更多公民参与,将Facebook打造成一个公共空间.如今,Facebook活跃用户已经接近20亿,它比任何一个国家人口都要多. 在宣言中,扎克伯格开篇明义反对美国正在兴起的孤立主义和对移民的