雷锋网(公众号:雷锋网)按:本文作者覃超,前Facebook软件工程师,现为FREES资本技术合伙人。
文章来自@覃超 的知乎回答:如何评价扎克伯格自己写的 Jarvis AI? 此问题缘起于扎克伯格2016年12月19日发布的文章Building Jarvis,小扎称自己打造了一个像钢铁侠里 Jarvis 那样的家庭AI助手。雷锋网已在第一时间翻译出这篇笔记:《扎克伯格开发笔记:打造Jarvis的日子,我庆幸自己从未停止过编程》,建议没看过的读者可以先浏览一下。
Jarvis demo视频:Jarvis From the Perspective of Priscilla Chan (is different)
帖子头图是一段 Jarvis 的代码。作为一个技术流作者,我在最后的附录解读那段代码:
文章开头Zuck先叙述了自己编写Jarvis的心路历程:
这个技术架构如下:一个 Jarvis server 在服务端跑,上面主要是做语言处理、语音识别和人脸识别 (Zuck家的大门需要用)。
输入端为各种家用硬件,也就是上图中左边那一列,依次是:
1. Crestron:Crestron Home Automation for SmartHome 此为美国最著名的智能家居控制器的厂商,专门提供一整套硬件和技术方案让爱折腾的老美实现这些功能:
"Alexa, turn on the kitchen lights"
"Alexa, raise the living room lights by fifty percent"
"Alexa, set the basement thermostat to 70 degrees"
黑人脸 -_- 这也能解释为什么在网上看到的智能家庭的视频来来回回都是这几个控制指令。
2. Lights:灯
3. Thermostat:调温度的
4. Doors:门和门禁系统
5. Sonos:老美喜欢的智能音响品牌:Sonos PLAY:1 Compact Wireless Smart Speaker for Streaming Music (White)
6. Spotify:美国版的网易云音乐。Spotify由Sean Parker创立(前Facebook CEO和联合创业人之一;也就是在《社交网络》电影里抽大麻的那个。注意:大麻在美国一些州已经合法,另外它的成瘾性和危害都小于香烟),Spotify和Facebook关系很好,在2011年深度集成在Facebook中。
7. Cameras:摄像头
8. Toaster:
老美耿直,早餐都吃的是toast,这个机器用来加热它,然后涂点果酱和黄油,就是一顿丰盛的早餐。
9. T-shirt cannon:T恤加农炮。很多读者这时估计懵逼了,问:“小魔王同学,你是不是说错了?扎克伯格没事在家里放一个加农炮干嘛?” 对的,其实他的衣柜里安装了一个T恤的发射器,可以直接把T恤喷射出来,打到他的手里。
架构图里的右侧为三个用户系统:messenger bot、语音app和门禁摄像头。接下来小扎说了他一步步是如何走过来的:
第一章:连接家里的家具设备。
这块Zuck坦言做这个AI家庭系统比跑365英里的任务要稍微简单一些(至少少费时),但是最麻烦的环节就是连接这些家里的各种设备。他甚至需要“逆向工程”一些硬件设备的API(比如灯和音响),使得可以通过程序来控制它们。Toaster换了一个1950年的硬件,另外Zuck还专门给Beast(zuck的狗)的喂食器以及T恤的弹射炮做了硬件的改动。
由此可见以后IoT(物联网)的重要性和前景。
第二章:自然语言处理
分为两部分:文字消息处理和语音处理。前者处理的难度是同义词和上下文,而后做音乐控制的时候发现播放指令的处理更加麻烦,比如:
“播放周杰伦”:这句命令在处理的时候要判断周杰伦到底是人还是歌名;另外Zuck的例子:
"Play someone like you", "Play someone like Adele",前者是歌名,后者则是进行类似风格的歌曲推荐。Zuck通过不断训练和加强Jarvis AI,使得它现在对于Zuck的歌曲喜好有记忆和认知,所以Zuck一般直接说:“Play me some music”。Jarvis便直接开始播放,另外Zuck有时心情不对的时候,想听轻音乐,便说:“that's not light, play something light”,Jarvis自己换歌曲并且学习。
第三章:视觉和面部识别
人的大脑有1/3的部分专门用来做视觉处理,包括图像、模式识别和追踪。Zuck的房子门禁同样也需要支持视觉和面部识别功能:
这部分在AI领域一直是发展前沿,所以有不少现成的model和开源框架。Facebook之前就开放了一套API来判断这个图片里是否有你fb好友,以及将面部位置可以从图片中定位出来。
Zuck为了做智能门禁,在大门口装了好几个摄像头,为了可以更好地捕捉人脸图片。Jarvis系统24小时不断进行人脸探测和识别,当有人且是Zuck好友的时候,给Zuck发消息询问是不是想见的人。
AI视觉还帮助Jarvis做其他事情,比如看Max(Zuck女儿)是否睡醒,如果醒了的话,Jarvis边自动开始播放Max喜欢的歌曲或者给Max上中文课(从小开始学习中文 -_-)。另外借助视觉系统,可以更加有效地知道家里的人的所在位置,这对于更好地执行有上下文的指令有巨大帮助。比如当有人说:“Turn on the lights”,肯定最佳的动作是打开此人所在位置的灯。
第四章:Messenger bot
老外现在喜欢用 bot,所以Zuck把各种操作指令都放在手机上,具体说来是 Facebook messenger 的 bot上(类似于Slack的bot或者微信的一个公众号)。于是Zuck只需要像这个公众号发消息即可。如下图:
Zuck介绍用 messenger bot 开发的各种便利之处,它比起做一个app来更轻,更容易跨平台,同时也不同处理push、启动、注册等一系列繁琐routine的事情。平时Zuck可以通过发文字或者语音消息(原文:audio clip,这个功能是小魔王我当年亲手做的~ :D),然后Jarvis AI将其发送到server上, 进而开始做文字或者语音处理,提炼出需要执行的指令来操作Zuck家。同时Jarvis AI还会主动发消息给Zuck,比如有人在门口时,Jarvis会把照片和识别出的人的信息发给Zuck,让他确认是否是自己要见的人。
Zuck自己没有料想到的是:平时和Jarvis的交流大部分都是通过文字信息;虽然开始Zuck以为自己会是说话为主,但是后来发现text更加方便更加能保护个人隐私,不打扰别人。这从一个侧面也能反应出来 voice message 在北美的messenger流行不起来的一个重要原因:随着社会进步,人会越来越重视隐私或是变得有些缄默。Zuck还透露不管是FB messenger还是whatsapp上也看出类似的趋势:文本信息的消息数量远比语音消息增长得快。这里给做AI的各位公司一个启示:虽然现在语音识别仿佛是标配,但是AI系统可能更加需要注意在文本处理上的成熟度,因为人们会大量使用文本控制而不是之前设想的语音控制。虽然后者让PM或者CEO觉得好像是更便捷更cool的人机交互方式。
第五章:语音处理
Zuck当然也做了语音识别的模块来辅助控制 Jarvis:
上图中的指令就是控制衣柜中的“加农炮”给自己发射体恤(具体可以参考后面的视频)。这个app是 Zuck专门做的iOS app来进行语音识别和理解的。之所以做一个全新的app,而不是用messenger bot,是因为在messenger里打开语音消息需要太多的步骤,有点繁琐。而Zuck的使用场景是希望把手机放在桌上,自己可能干其他事,而手机一直在那里听着。这种使用方式有点类似Amazon Echo:Amazon Echo - Amazon Official Site - Alexa-Enabled
Zuck说之前开发iOS还是在2012年,现在再次开发,他感受到整个ios和fb的toolchain的改进巨大,语言和xcode的增强使得编程和做app的门槛大大降低。
通过开发和使用这个voice app,zuck对于AI和语音识别在产品上的思考:
- 语音识别的算法在上下文和联想方面需要加强得还不少;类比人类进行语音识别的时候,不仅在听你当前说什么并记下来,同时要时刻在预测你接下来准备说什么,大脑表现得非常自然而且高效。而计算机,即使最近开始使用RNN(recurrent neurol network)好了不少,但是依然有很大的提升空间;
- 语音识别现在在理解人类的支离片语上表现不佳,另外对于常规情况下使用的语音识别能力比较弱。大部分的系统都在做特别功能范围(比如Google Search, Amazon Echo)内的语音识别。
- 语音的加入让产品和人之间更加有情感交流,Zuck觉得这肯定是以后产品发展的方向。能用语音进行交流之后,Zuck自己越用越觉得有意思,然后开始改进Jarvis,让其变得更加幽默有趣。还加入了一些游戏和黑话给Jarvis。
- 语音的识别和运用方面,zuck认为可以做的创业才刚刚开始。(所以各位抓住机会!)
第六章:Facebook的工程师环境
这一段,Zuck说自己虽然是CEO,但是从未停止过coding,但主要以个人项目为主。通过这次开发 Jarvis,zuck又重新体会了一次整个FB的技术环境的魅力,就类似于一个新入职的工程师一样走完了整个bootcamp的过程。他说不仅上手实践AI和了解了最新AI方面的进展,同时意外收获了很多关于开发技术方面的知识。Zuck赞赏FB的代码非常有条不絮,另外在开源上做得很好,甚至zuck在文章里亲自列举出 Jarvis上使用的开源框架:
- Messenger bot: messenger.com/platform
- Atom plugin for bot: facebook/nuclide
- Buck: A fast build tool
- FastText, 文本处理和识别:facebookresearch/fastText
- Facebook AI research:facebookresearch
最后zuck欢迎开发者都来使用下这些开源库,来感受下AI最新发展的魅力。另外他一直坚持内部工具和技术的基础设施对于一个互联网公司的重要性,所以最后他说:“Building internal tools that make engineering more efficient is important to any technology company, but this is something we take especially seriously. So I want to give a shout out to everyone on our infra and tools teams that make this so good.” 所以这里可以看出,硅谷公司把技术部门真真切切地当做是公司的重要资产,去鼓励去培养;而国内很多公司对于技术团队,更多当成是一种工具,甚至是开支部门。所以各位想单纯醉心于技术钻研的人,早点去硅谷是一条最好的出路。
第七章:下一步
Zuck的文章到了这里,已经进行到了尾声。Zuck说虽然2016年的挑战已经结束,但是对于Jarvis的开发和优化会继续。具体需要做:
- 开发Android下的语音识别app
- 接入更多的室内硬件和更多的应用
- 让Jarvis拥有学习能力。Zuck原话:“If I spent another year on this challenge, I'd focus more on learning how learning works.” 即希望教会Jarvis如何学习,或者说得更加酷炫:让Jarvis学习如何学习。(小魔王补充:chunk it up,deliberate practicing,feedbacks,10000 hours theory!)
最后Zuck准备再抽象一层自己的代码,然后在明年将其开源(接受小魔王覃超的进一步code review :-D)
第八章:结论
关于结论这部分,Zuck原文相当得精炼且有意义,我实在觉得应该把英文贴上来,各位都能阅读一下:
“Building Jarvis was an interesting intellectual challenge, and it gave me direct experience building AI tools in areas that are important for our future.
I've previously predicted that within 5-10 years we'll have AI systems that are more accurate than people for each of our senses -- vision, hearing, touch, etc, as well as things like language. It's impressive how powerful the state of the art for these tools is becoming, and this year makes me more confident in my prediction.
At the same time, we are still far off from understanding how learning works. Everything I did this year -- natural language, face recognition, speech recognition and so on -- are all variants of the same fundamental pattern recognition techniques. We know how to show a computer many examples of something so it can recognize it accurately, but we still do not know how to take an idea from one domain and apply it to something completely different.
To put that in perspective, I spent about 100 hours building Jarvis this year, and now I have a pretty good system that understands me and can do lots of things. But even if I spent 1,000 more hours, I probably wouldn't be able to build a system that could learn completely new skills on its own -- unless I made some fundamental breakthrough in the state of AI along the way.
In a way, AI is both closer and farther off than we imagine. AI is closer to being able to do more powerful things than most people expect -- driving cars, curing diseases, discovering planets, understanding media. Those will each have a great impact on the world, but we're still figuring out what real intelligence is.
Overall, this was a great challenge. These challenges have a way of teaching me more than I expected at the beginning. This year I thought I'd learn about AI, and I also learned about home automation and Facebook's internal technology too. That's what's so interesting about these challenges. Thanks for following along with this challenge and I'm looking forward to sharing next year's challenge in a few weeks.”
这里可以看出Zuck的执行力以及实践能力。一方面通过写Jarvis来亲自学习了一下AI现在的最近进展,另一方面这种第一手经验很好地反馈回来让他更加有信心来判断以后5-10年AI和相关产品的发展方向。我觉得我自己以及中国的广大创业者特别是投资人都应该学习这种实干的态度,而不是停留在嘴皮上预测未来。
Zuck认为计算机智能在某些领域做得已经很好,但是最关键的“自学能力”和“举一反三”能力几乎没有(原文:We know how to show a computer many examples of something so it can recognize it accurately, but we still do not know how to take an idea from one domain and apply it to something completely different.)。Zuck自己话了100个小时来做Jarvis,但是他认为就算花1000个小时,也无法让机器能够有自学能力,除非在人工智能领域可以有学术、科学上的重大突破。
从demo视频里来看的话,很多时候Jarvis感觉并不好用。但是毕竟能够用messenger+声音来控制自己的家庭设备是一件非常酷炫的事情。
---- 附带图片中代码的解读 ----
这段代码是用PHP外加Facebook的FBT写就,总体逻辑:将异步task设置好(其中一个task就是做图片的人脸识别),另外从AI API中取得并设置好config,最后调用接口并且等待结果。
其中代码细节:
从代码逻辑来看,这应该是Jarvis的源代码。从代码细节看,作者的水平还行,但也不够完美。可以看出逻辑清晰但是代码功力不太够 -_-。 这也合情合理,毕竟Zuck没时间保持一个高频次写代码的状态,所以肯定是“三天不写手生”。举例来说(如果严格的code review的话;哈哈!给Zuck做code review真是三生有幸!):
- 最开始两行:$task这个变量不需要,直接往 "image" => ... 这里灌即可;而且 $task 这个太泛的名字也没有具体含义。要不就改成:$face_detect_task,当然最好就直接放入map里算了。
-
这两句写得一般,看起来有点学生时代写大作业的代码的风格;同名变量反复使用,另外对于null的检查不对称。
-
看到这段代码,我想很多程序员会哭笑不得。首先代码逻辑有点hacky,初步判断应该是 JARVIS_FACEREC 没来得及完成。。。所以赶鸭子上架暂时用 RC_MODEL 来顶上;毕竟马上就Christmas和新年了,Zuck没做完也要先赶在deadline之前发布嘛。注意!我觉得这个态度和做事方式才是对的, 不要拖,也不要等到完美的时候才发布,因为一个项目一个作业永远都无法达到你想要的完美状态。正如Zuck自己之前在Facebook里强调:“Done is better than perfect!”
-
idx是一个helper method,其实就等于 $api_config['detection_tier'],但是用idx的好处是如果 $api_config 为空,那么 idx 不会崩溃,而是返回null,而 $api_config['detection_tier'] 直接触发异常。所以这里回头看,Zuck的80行写得并不好,最好写成:$api_config = idx(api_config, 'facer'); 对了,idx还可以支持第三个参数,就是默认值;如果这个key在map中没有的话,就直接返回默认值。
-
这句是技术含量最高的一句。FaceDetectRequestConfig::gen,这里gen代表generator,由于历史原因,Facebook的代码用的是generator,所以异步操作就起名gen;但是这里用的是新的 resumable function;也就是 ::gen 返回一个 awaitable object(类似promise,如果你玩js或者其他语言),然后前面的await就将异步操作出发执行,最后得到从 detection_tier 来的 config。具体关于 async & await,以及 resumable function 可以参考:http://meetingcpp.com/index.php/br/items/resumable-functions-async-and-await.html (这里PHP中的resumable function是Facebook自己做的语法加强;C#里一直就有,而C++会在下一代的C++1y里引入 resumable function)。
- print "Configured...\n" 这句话太萌,典型的学生项目代码。
类似于: console.log(xxx) 或者 System.out.println("Configured...) 或 NSLog(@"Configured..."); 要是公司项目的代码这么写,估计要被tech lead直接骂死。
不过这里Zuck敢于自己动手开始写代码,并且最后可以有一个prototype上线开始能够使用,已经非常厉害了(毕竟很多CEO一天到晚忙除了开会,几乎什么都做不了)。
最后Zuck那段代码的最佳形态是:
本文作者:覃超
本文转自雷锋网禁止二次转载,原文链接