Facebook早期员工评价扎克伯格的Jarvis AI代码——富可敌国之后尚能饭否? | 深度

雷锋网(公众号:雷锋网)按:本文作者覃超,前Facebook软件工程师,现为FREES资本技术合伙人。

文章来自@覃超 的知乎回答:如何评价扎克伯格自己写的 Jarvis AI? 此问题缘起于扎克伯格2016年12月19日发布的文章Building Jarvis,小扎称自己打造了一个像钢铁侠里 Jarvis 那样的家庭AI助手。雷锋网已在第一时间翻译出这篇笔记:《扎克伯格开发笔记:打造Jarvis的日子,我庆幸自己从未停止过编程》,建议没看过的读者可以先浏览一下。

Zuck原贴

Jarvis demo视频:Jarvis From the Perspective of Priscilla Chan (is different)

帖子头图是一段 Jarvis 的代码。作为一个技术流作者,我在最后的附录解读那段代码:

文章开头Zuck先叙述了自己编写Jarvis的心路历程:

这个技术架构如下:一个 Jarvis server 在服务端跑,上面主要是做语言处理、语音识别和人脸识别     (Zuck家的大门需要用)。

输入端为各种家用硬件,也就是上图中左边那一列,依次是:

1. CrestronCrestron Home Automation for SmartHome 此为美国最著名的智能家居控制器的厂商,专门提供一整套硬件和技术方案让爱折腾的老美实现这些功能:

"Alexa, turn on the kitchen lights"

"Alexa, raise the living room lights by fifty percent"

"Alexa, set the basement thermostat to 70 degrees"

黑人脸 -_- 这也能解释为什么在网上看到的智能家庭的视频来来回回都是这几个控制指令。

2. Lights:灯

3. Thermostat:调温度的

4. Doors:门和门禁系统

5. Sonos:老美喜欢的智能音响品牌:Sonos PLAY:1 Compact Wireless Smart Speaker for Streaming Music (White)

6. Spotify:美国版的网易云音乐。Spotify由Sean Parker创立(前Facebook CEO和联合创业人之一;也就是在《社交网络》电影里抽大麻的那个。注意:大麻在美国一些州已经合法,另外它的成瘾性和危害都小于香烟),Spotify和Facebook关系很好,在2011年深度集成在Facebook中。

7. Cameras:摄像头

8. Toaster

老美耿直,早餐都吃的是toast,这个机器用来加热它,然后涂点果酱和黄油,就是一顿丰盛的早餐。

9. T-shirt cannon:T恤加农炮。很多读者这时估计懵逼了,问:“小魔王同学,你是不是说错了?扎克伯格没事在家里放一个加农炮干嘛?” 对的,其实他的衣柜里安装了一个T恤的发射器,可以直接把T恤喷射出来,打到他的手里。

架构图里的右侧为三个用户系统:messenger bot、语音app和门禁摄像头。接下来小扎说了他一步步是如何走过来的:

第一章:连接家里的家具设备。

这块Zuck坦言做这个AI家庭系统比跑365英里的任务要稍微简单一些(至少少费时),但是最麻烦的环节就是连接这些家里的各种设备。他甚至需要“逆向工程”一些硬件设备的API(比如灯和音响),使得可以通过程序来控制它们。Toaster换了一个1950年的硬件,另外Zuck还专门给Beast(zuck的狗)的喂食器以及T恤的弹射炮做了硬件的改动。

由此可见以后IoT(物联网)的重要性和前景。

第二章:自然语言处理

分为两部分:文字消息处理和语音处理。前者处理的难度是同义词和上下文,而后做音乐控制的时候发现播放指令的处理更加麻烦,比如:

“播放周杰伦”:这句命令在处理的时候要判断周杰伦到底是人还是歌名;另外Zuck的例子:

"Play someone like you", "Play someone like Adele",前者是歌名,后者则是进行类似风格的歌曲推荐。Zuck通过不断训练和加强Jarvis AI,使得它现在对于Zuck的歌曲喜好有记忆和认知,所以Zuck一般直接说:“Play me some music”。Jarvis便直接开始播放,另外Zuck有时心情不对的时候,想听轻音乐,便说:“that's not light, play something light”,Jarvis自己换歌曲并且学习。

第三章:视觉和面部识别

人的大脑有1/3的部分专门用来做视觉处理,包括图像、模式识别和追踪。Zuck的房子门禁同样也需要支持视觉和面部识别功能:

这部分在AI领域一直是发展前沿,所以有不少现成的model和开源框架。Facebook之前就开放了一套API来判断这个图片里是否有你fb好友,以及将面部位置可以从图片中定位出来。

Zuck为了做智能门禁,在大门口装了好几个摄像头,为了可以更好地捕捉人脸图片。Jarvis系统24小时不断进行人脸探测和识别,当有人且是Zuck好友的时候,给Zuck发消息询问是不是想见的人。

AI视觉还帮助Jarvis做其他事情,比如看Max(Zuck女儿)是否睡醒,如果醒了的话,Jarvis边自动开始播放Max喜欢的歌曲或者给Max上中文课(从小开始学习中文 -_-)。另外借助视觉系统,可以更加有效地知道家里的人的所在位置,这对于更好地执行有上下文的指令有巨大帮助。比如当有人说:“Turn on the lights”,肯定最佳的动作是打开此人所在位置的灯。

第四章:Messenger bot

老外现在喜欢用 bot,所以Zuck把各种操作指令都放在手机上,具体说来是 Facebook messenger 的   bot上(类似于Slack的bot或者微信的一个公众号)。于是Zuck只需要像这个公众号发消息即可。如下图:

Zuck介绍用 messenger bot 开发的各种便利之处,它比起做一个app来更轻,更容易跨平台,同时也不同处理push、启动、注册等一系列繁琐routine的事情。平时Zuck可以通过发文字或者语音消息(原文:audio clip,这个功能是小魔王我当年亲手做的~ :D),然后Jarvis AI将其发送到server上, 进而开始做文字或者语音处理,提炼出需要执行的指令来操作Zuck家。同时Jarvis AI还会主动发消息给Zuck,比如有人在门口时,Jarvis会把照片和识别出的人的信息发给Zuck,让他确认是否是自己要见的人。

Zuck自己没有料想到的是:平时和Jarvis的交流大部分都是通过文字信息;虽然开始Zuck以为自己会是说话为主,但是后来发现text更加方便更加能保护个人隐私,不打扰别人。这从一个侧面也能反应出来       voice message 在北美的messenger流行不起来的一个重要原因:随着社会进步,人会越来越重视隐私或是变得有些缄默。Zuck还透露不管是FB messenger还是whatsapp上也看出类似的趋势:文本信息的消息数量远比语音消息增长得快。这里给做AI的各位公司一个启示:虽然现在语音识别仿佛是标配,但是AI系统可能更加需要注意在文本处理上的成熟度,因为人们会大量使用文本控制而不是之前设想的语音控制。虽然后者让PM或者CEO觉得好像是更便捷更cool的人机交互方式。

第五章:语音处理

Zuck当然也做了语音识别的模块来辅助控制 Jarvis:

上图中的指令就是控制衣柜中的“加农炮”给自己发射体恤(具体可以参考后面的视频)。这个app是   Zuck专门做的iOS app来进行语音识别和理解的。之所以做一个全新的app,而不是用messenger bot,是因为在messenger里打开语音消息需要太多的步骤,有点繁琐。而Zuck的使用场景是希望把手机放在桌上,自己可能干其他事,而手机一直在那里听着。这种使用方式有点类似Amazon Echo:Amazon Echo - Amazon Official Site - Alexa-Enabled

Zuck说之前开发iOS还是在2012年,现在再次开发,他感受到整个ios和fb的toolchain的改进巨大,语言和xcode的增强使得编程和做app的门槛大大降低。

通过开发和使用这个voice app,zuck对于AI和语音识别在产品上的思考:

  • 语音识别的算法在上下文和联想方面需要加强得还不少;类比人类进行语音识别的时候,不仅在听你当前说什么并记下来,同时要时刻在预测你接下来准备说什么,大脑表现得非常自然而且高效。而计算机,即使最近开始使用RNN(recurrent neurol network)好了不少,但是依然有很大的提升空间;
  • 语音识别现在在理解人类的支离片语上表现不佳,另外对于常规情况下使用的语音识别能力比较弱。大部分的系统都在做特别功能范围(比如Google Search, Amazon Echo)内的语音识别。
  • 语音的加入让产品和人之间更加有情感交流,Zuck觉得这肯定是以后产品发展的方向。能用语音进行交流之后,Zuck自己越用越觉得有意思,然后开始改进Jarvis,让其变得更加幽默有趣。还加入了一些游戏和黑话给Jarvis。
  • 语音的识别和运用方面,zuck认为可以做的创业才刚刚开始。(所以各位抓住机会!)

第六章:Facebook的工程师环境

这一段,Zuck说自己虽然是CEO,但是从未停止过coding,但主要以个人项目为主。通过这次开发        Jarvis,zuck又重新体会了一次整个FB的技术环境的魅力,就类似于一个新入职的工程师一样走完了整个bootcamp的过程。他说不仅上手实践AI和了解了最新AI方面的进展,同时意外收获了很多关于开发技术方面的知识。Zuck赞赏FB的代码非常有条不絮,另外在开源上做得很好,甚至zuck在文章里亲自列举出 Jarvis上使用的开源框架:

最后zuck欢迎开发者都来使用下这些开源库,来感受下AI最新发展的魅力。另外他一直坚持内部工具和技术的基础设施对于一个互联网公司的重要性,所以最后他说:“Building internal tools that make engineering more efficient is important to any technology company, but this is something we take especially seriously. So I want to give a shout out to everyone on our infra and tools teams that make this so good.” 所以这里可以看出,硅谷公司把技术部门真真切切地当做是公司的重要资产,去鼓励去培养;而国内很多公司对于技术团队,更多当成是一种工具,甚至是开支部门。所以各位想单纯醉心于技术钻研的人,早点去硅谷是一条最好的出路。

第七章:下一步

Zuck的文章到了这里,已经进行到了尾声。Zuck说虽然2016年的挑战已经结束,但是对于Jarvis的开发和优化会继续。具体需要做:

  • 开发Android下的语音识别app
  • 接入更多的室内硬件和更多的应用
  • 让Jarvis拥有学习能力。Zuck原话:“If I spent another year on this challenge, I'd focus more on learning how learning works.” 即希望教会Jarvis如何学习,或者说得更加酷炫:让Jarvis学习如何学习。(小魔王补充:chunk it up,deliberate practicing,feedbacks,10000 hours theory!)

最后Zuck准备再抽象一层自己的代码,然后在明年将其开源(接受小魔王覃超的进一步code review :-D)

第八章:结论

关于结论这部分,Zuck原文相当得精炼且有意义,我实在觉得应该把英文贴上来,各位都能阅读一下:

“Building Jarvis was an interesting intellectual challenge, and it gave me direct experience building AI tools in areas that are important for our future.

I've previously predicted that within 5-10 years we'll have AI systems that are more accurate than people for each of our senses -- vision, hearing, touch, etc, as well as things like language. It's impressive how powerful the state of the art for these tools is becoming, and this year makes me more confident in my prediction.

At the same time, we are still far off from understanding how learning works. Everything I did this year -- natural language, face recognition, speech recognition and so on -- are all variants of the same fundamental pattern recognition techniques. We know how to show a computer many examples of something so it can recognize it accurately, but we still do not know how to take an idea from one domain and apply it to something completely different. 

To put that in perspective, I spent about 100 hours building Jarvis this year, and now I have a pretty good system that understands me and can do lots of things. But even if I spent 1,000 more hours, I probably wouldn't be able to build a system that could learn completely new skills on its own -- unless I made some fundamental breakthrough in the state of AI along the way. 

In a way, AI is both closer and farther off than we imagine. AI is closer to being able to do more powerful things than most people expect -- driving cars, curing diseases, discovering planets, understanding media. Those will each have a great impact on the world, but we're still figuring out what real intelligence is.

Overall, this was a great challenge. These challenges have a way of teaching me more than I expected at the beginning. This year I thought I'd learn about AI, and I also learned about home automation and Facebook's internal technology too. That's what's so interesting about these challenges. Thanks for following along with this challenge and I'm looking forward to sharing next year's challenge in a few weeks.”

这里可以看出Zuck的执行力以及实践能力。一方面通过写Jarvis来亲自学习了一下AI现在的最近进展,另一方面这种第一手经验很好地反馈回来让他更加有信心来判断以后5-10年AI和相关产品的发展方向。我觉得我自己以及中国的广大创业者特别是投资人都应该学习这种实干的态度,而不是停留在嘴皮上预测未来。

Zuck认为计算机智能在某些领域做得已经很好,但是最关键的“自学能力”和“举一反三”能力几乎没有(原文:We know how to show a computer many examples of something so it can recognize it accurately, but we still do not know how to take an idea from one domain and apply it to something completely different.)。Zuck自己话了100个小时来做Jarvis,但是他认为就算花1000个小时,也无法让机器能够有自学能力,除非在人工智能领域可以有学术、科学上的重大突破。

从demo视频里来看的话,很多时候Jarvis感觉并不好用。但是毕竟能够用messenger+声音来控制自己的家庭设备是一件非常酷炫的事情。

---- 附带图片中代码的解读 ----

这段代码是用PHP外加Facebook的FBT写就,总体逻辑:将异步task设置好(其中一个task就是做图片的人脸识别),另外从AI API中取得并设置好config,最后调用接口并且等待结果。

其中代码细节:

从代码逻辑来看,这应该是Jarvis的源代码。从代码细节看,作者的水平还行,但也不够完美。可以看出逻辑清晰但是代码功力不太够 -_-。 这也合情合理,毕竟Zuck没时间保持一个高频次写代码的状态,所以肯定是“三天不写手生”。举例来说(如果严格的code review的话;哈哈!给Zuck做code review真是三生有幸!):

  1. 最开始两行:$task这个变量不需要,直接往 "image" => ... 这里灌即可;而且 $task 这个太泛的名字也没有具体含义。要不就改成:$face_detect_task,当然最好就直接放入map里算了。
  2. 这两句写得一般,看起来有点学生时代写大作业的代码的风格;同名变量反复使用,另外对于null的检查不对称。

  3. 看到这段代码,我想很多程序员会哭笑不得。首先代码逻辑有点hacky,初步判断应该是 JARVIS_FACEREC 没来得及完成。。。所以赶鸭子上架暂时用 RC_MODEL 来顶上;毕竟马上就Christmas和新年了,Zuck没做完也要先赶在deadline之前发布嘛。注意!我觉得这个态度和做事方式才是对的, 不要拖,也不要等到完美的时候才发布,因为一个项目一个作业永远都无法达到你想要的完美状态。正如Zuck自己之前在Facebook里强调:“Done is better than perfect!”

  4. idx是一个helper method,其实就等于 $api_config['detection_tier'],但是用idx的好处是如果 $api_config 为空,那么 idx 不会崩溃,而是返回null,而 $api_config['detection_tier'] 直接触发异常。所以这里回头看,Zuck的80行写得并不好,最好写成:$api_config = idx(api_config, 'facer'); 对了,idx还可以支持第三个参数,就是默认值;如果这个key在map中没有的话,就直接返回默认值。

  5. 这句是技术含量最高的一句。FaceDetectRequestConfig::gen,这里gen代表generator,由于历史原因,Facebook的代码用的是generator,所以异步操作就起名gen;但是这里用的是新的        resumable function;也就是 ::gen 返回一个 awaitable object(类似promise,如果你玩js或者其他语言),然后前面的await就将异步操作出发执行,最后得到从 detection_tier 来的 config。具体关于 async & await,以及 resumable function 可以参考:http://meetingcpp.com/index.php/br/items/resumable-functions-async-and-await.html (这里PHP中的resumable function是Facebook自己做的语法加强;C#里一直就有,而C++会在下一代的C++1y里引入 resumable    function)。

  6. print "Configured...\n" 这句话太萌,典型的学生项目代码。

    类似于: console.log(xxx) 或者 System.out.println("Configured...) 或 NSLog(@"Configured..."); 要是公司项目的代码这么写,估计要被tech lead直接骂死。

不过这里Zuck敢于自己动手开始写代码,并且最后可以有一个prototype上线开始能够使用,已经非常厉害了(毕竟很多CEO一天到晚忙除了开会,几乎什么都做不了)。

最后Zuck那段代码的最佳形态是:

本文作者:覃超

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-25 14:03:54

Facebook早期员工评价扎克伯格的Jarvis AI代码——富可敌国之后尚能饭否? | 深度的相关文章

Facebook员工揭秘扎克伯格支持率为何高达99%

Facebook员工揭秘 扎克伯格支持率为何高达99%新浪财经讯,为什么扎克伯格在员工中的支持率高达不可思议的99%?Facebook软件工程师梅蒙发博客文章回答了这个问题,尽管只是其个人观点,但仍很精彩.2013年,Glassdoor调查显示扎克伯格支持率高达99%,今年他的支持率降至93%,但仍是最受员工欢迎的美国十大CEO之一.另外,FB股价一年来上涨了近100%.梅蒙称:"因为他真的太了不起了,以下是我们支持他的几个原因."故事:他在大学宿舍里创建了这家用户十亿级.营收十亿级的

Facebook首席技术官详细解读扎克伯格的十年规划

今年4月,少年得志的Facebook首席执行官马克·扎克伯格(Mark Zuckerberg)在F8开发者大会上分享了公司的十年规划,从Instagram和Messenger这样的应用到虚拟现实和人工智能这样的未来派技术,这份发展规划囊括了公司对各种新技术的畅想. 扎克伯格当时说:"这就是我们未来十年的发展规划,我们要开发大量的新技术,让任何人都能随心所欲地与他人分享他们想要分享的东西." 上周,Facebook在其硅谷总部召开了一次记者招待会.Facebook首席技术官迈克·斯科洛普

Facebook的28个小秘密:扎克伯格每天都会写代码

北京时间5月18日消息,据国外媒体报道,Facebook股票将于明日挂牌交易.Facebook确定的IPO(首次公开招股)发行价为38美元,意味着其身价超过1000亿美元,高过目前上市的大多数科技公司. 以下是有关Facebook及其首席执行官马克·扎克伯格(Mark Zuckerberg)的28个鲜为人知的小秘密: 1.Facebook上市时其市值将超过eBay.雅虎.Groupon.LinkedIn.Netflix.IAC.AOL.Zynga和Pandora之和. 2.开始挂牌交易时,Fac

Facebook创建10周年 扎克伯格财富升至310亿美元

中介交易 SEO诊断 淘宝客 云主机 技术大厅 1月31日消息,据国外媒体报道,在著名社交网站Facebook创建10周年之际,当地时间周四该公司股价创下每股61美元新高,而该公司创始人马克·扎克伯格(Mark Zuckerberg)个人财富也升至310亿美元. 按照周四每股61美元股价,Facebook市值高达1500亿美元,而这家社交网站的真正价值是与这个数字相符合的.在曾经的互联网泡沫时期,曾经有两家公司市值曾达到这个数字,但时间不长这两家公司市值迅速缩水,如过眼烟云,因为他们的实际价值与

十个关于Facebook创始人兼CEO扎克伯格的轶闻

Facebook创始人兼CEO马克·扎克伯格 导语:美国CNN网站周二撰文,总结了刚刚年满29岁的Facebook联合创始人兼CEO马克·扎克伯格(Mark Zuckerberg)的十大轶闻. 以下为文章全文: 本周二是马克·扎克伯格(Mark Zuckerberg)的生日,他已经29周岁了.对于一个亿万富豪来说,这简直年轻得不像话,但是别忘了,他当年创办Facebook时还不到20岁. 扎克伯格有很多值得庆祝的事情:他积累了巨额财富,吸引全球七分之一的人使用他的产品,还改变了人与人之间的沟通方

Facebook今天12岁 扎克伯格说要把用户做到50亿

2月4日,国外媒体报道,到2030年,Facebook计划将全球70亿人口中的50亿人吸引到其社交网络平台上. 2004年2月4日,Facebook正式上线.今天,Facebook迎来了它的12周年生日.在庆祝活动上,Facebook CEO马克·扎克伯格做出了这一预测. 此外,Facebook还表示,从2011年至今公司用户数量已翻了一番,现达到15亿.在用户数量持续增长的同时,用户之间的联系也更加紧密.如今,每用户之间的平均"分离度"已从3.74降低至3.57. 扎克伯格说:&qu

Facebook十周年:扎克伯格期许连结整个世界

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 Facebook推出"Look Back(回首)"的应用程序 2月4日,美国社交网站Facebook迎来十岁生日,创办人兼CEO马克·扎克伯格(Mark Zuckerberg)期许Facebook在未来十年,协助全球目前还未上网的三分之二人口连上网络,"让世界更开放.把整个世界连结起来". 当天,Fac

Facebook涉嫌误导投资者 扎克伯格将接受审判

Facebook漏洞百出的上市案引发大量诉讼,虽然 纳斯达克股市和交易商的赔偿,已经接近尾声,但是投资人对于Facebook管理层以及承销商,却仍不放过.11月18日,美国一家法庭宣布,包括扎克伯格在内的管理层以及多家银行,必须为IPO披露信息误导投资人接受审判,并作出赔偿.在Facebook上市之前,相关券商分析师却给出了有关移动用户迁移将导致未来收入降低的报告.许多投资机构指责Facebook,应该向所有投资人公开这些内部的预测,即移动用户的增加情况,以及哪些产品决策会导致收入降低.美国曼哈

Facebook 十周年,扎克伯格的机遇与挑战

2004 年 2 月 4 日,马克·扎克伯格与自己的大学校友创办了"The Facebook",原本它的作用只是女生比美,但十年后的今天,它已经成为全球最知名的社交网络,市值高达 1200 亿美元,连接着全世界的人们. 根据 Facebook 前不久发布的财报,Facebook 月活跃用户人数高达 12.3 亿,比去年同期增长 16%,移动业务月活跃用户为 9.45 亿,同比增长 39%.Facebook 该季营收 25.85 亿美元,净利润高达 5.23 亿美元. 十年前 Faceb