停留在“玩具”层面的机器学习,该如何深入?

Drew Breuning,就职于美国大数据分析平台PlaceIQ。该公司是基于地理位置的大数据分析翘楚,2016年获阿里巴巴的投资。

机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多个领域,它是人工智能的核心,观其本质,察其影响,一起来看Drew Breunig眼中的机器学习。



时不时我们就会听到一些流行术语,如基因组编辑技术(CRISPR)、虚拟现实(VR)和机器学习(Machine Learning)等。由于曝光过于频繁,人们很容易就会失去兴趣。

基因编辑技术可能会改变我们的生活,但是了解其工作原理并不能给你带来实质性的帮助。虚拟现实将会吞噬传统媒体,但是硬件要求跟不上,意味着真正投入日常使用还有待时日。

科技界的弄潮儿都在关注?

别忽略了机器学习。

没错,机器学习能帮助我们开发出奇妙的的应用,但这不应该是我们去关注它的原因。

我们应该关注机器学习,因为它是谷歌、脸书和亚马逊正在钻研的东西,而这三家公司是科技界的弄潮儿。机器学习的本质、工作原理、提升方法以及如何呈现(载体),已经决定了它会给科技界带来巨变,即使现在它的价值体现仅仅是一小部分。

要理解机器学习的影响,我们要先探一探它的本质。

(下文中我将会使用“机器学习”和“深度学习”两种说法,两者概念相通。)

机器学习,让一切程序化

机器学习,或者说深度学习的目标,是为了让一切程序化。我在一月份的一篇文章中曾写到:

简而言之,机器学习就是为了让程序学会人类的认知能力。创建算法的第一步就是为程序提供大量人工分类整理的数据,比如说标记的图片。

程序会去分析这些数据并从中总结出规律。再接下来程序会将这种规律投入实际的运用。这也就是为什么脸书会让你标记图片、谷歌允许你进行图片搜索。



到目前为止,大部分机器学习的应用还停留在“玩具”层面。

比方说智能相册和更智能的语音识别,早期的不成熟我们是可以理解的。比方说人脸识别错误或者要你再重复一遍“没听懂”的的词语,这也没什么大不了。但是随着研究的深入和技术的成熟,我们会看到机器学习会被运用到各种丰富有趣的场景下。

这里的重点是,机器学习催生了好应用的出现,它们能够和用户所创造的内容进行交互,比如说照片、语音、文本以及其他各种形式的内容。这使得企业能够去开发更“懂”用户的应用。

这种技术的巨大潜力在于能帮助解决自世界上第一台通用计算机 Eniac 诞生后就一直存在的用户界面(UI)问题,众所周知,UI 的重大改进有望开启全新的计算时代。

机器学习模式必须要知道的三大要素

有了鼠标和图形操作界面,计算机变的易于操作,最终普及大屏千家万户。

触摸屏的出现让计算机变得不再那么高不可攀,电脑成了日常生活中的常见工具。

而基于机器学习的操作界面的诞生则让计算变的无处不在。

但是问题来了:

得先有人做好基本数据的分拣工作,好让机器去“学习”。



确定一个机器学习模式你需要三大要素(按重要性排列):

  1. 训练数据:通过人工标记、分类整理的数据集
  2. 软件:创建机器学习模式的软件库载体
  3. 硬件:提供动力的中央处理器和图形处理器

硬件唾手可得,租或者买,简单。软件就更容易了!你很可能已经租了,如果没有,网上有大把开源免费的软件。硬件软件都搞定,现在你需要的是训练数据,大量的训练数据!祝你好运。

在我们深入了解你现在有多懵之前,我们先来看看为什么一开始我们就需要这么多的训练数据。

当下的机器学习软件已经很优秀,至少比以前的要好!但是要想保证高质量的结果输出,我们需要大量的训练数据。可以毫不夸张的说,机器学习模式的质量直接和训练数据的数量和质量成正比。

在更好的机器学习软件出现之前,想要从少量的数据搭建出好的机器学习模式是不可能的。然而残酷的事实是,更好的机器学习软件不会一夜之间就冒出来。

程序猿们日复一日地同bug对抗,才使得我们的软件一步步完善,而机器学习软件的完善还存在断点平衡的特点:时而进步缓慢,时而进步飞速;时而小进步,时而大飞跃。

正因如此,为机器学习软件调试或者改Bug是件很困难的事情,因为我们并不完全了解它到底是如何工作的。

这是机器学习最最我费解的事情。我们不完全知道它怎么工作的,也不能系统地去调试,出了问题只能去猜测,去查证。

训练数据——机器学习的生命之源

机器学习专家Pete Warden 曾说过:

尽管Krizhevsky的方案在2012年ImageNet图像识别打算上获胜,没有人真正知道为什么这个方案如此奏效,以及那些设计决定和参数最为重要。尽管这是一个在摸索中纠错改正的体现,但是我们还是无法从理论上知道它到底是如何工作的。

这也意味着只有研究人员更好的理解其工作原理,才能提出更有效的完善方案。就像我一个朋友说的,许多研究生都在研究这个,但原因是因为这能给他们带来高薪。

在我们真正了解深度学习如何工作之前,我们需要大量的训练数据。

训练数据就是机器学习的生命之源。

那我们如何获得训练数据呢?当下的平台并没有有效的利用其用户资源 。



计算机要学习凌乱的人类事物,他们就需要这个凌乱世界中的人类来指导。这合情合理,但是考虑到我们的所需要的海量数据时,我们就能理解我们面临不小的挑战:到哪儿去找这么多人,还愿意零用他们的闲暇时间给我们创造训练数据?

如果你说,我可以招一些人。那我可以告诉你,这种规模的工作,给他们支付薪水是很大的问题。

如果你说,我去调教他们,bingo!你的回答离正确答案不远啦!

互联网媒体的撰稿人都说过一句话:如果你不付钱,那么你本人就会变成产品。这句话其实是针对广告赞助形式的产品的评价,比如脸书、谷歌、Tumblr和Snapchat等。

他们把你关注的东西打包卖给广告主,但这些公司这种重复性的工作恰恰有利于机器学习。

这些使用免费服务的用户就是要来训练计算机的人们,继而打造更好的产品和服务。免费这一点很重要,因为这能够产生大量的用户数据,而这正是我们创建机器学习模式所需要的训练数据。



这不禁让我想到了美洲印第安人充分利用水牛身上每一部分的故事。而这些在线服务也在学着如何学习和利用身上的方方面面。比如说利用用户所关注的东西来进行广告,再利用所掌握的用户信息来创造深度学习模式。

获得充足训练数据的关键有两点:

  1. 吸引大批用户
  2. 说服他们为你创建大量训练数据

这就像是Tom Sawyer和他的各种历险一样,但是规模是千百万倍。

“帮助了我们,也帮助了你自己。”

互惠数据应用(RDA)的崛起

一种新型应用(或应用功能)正在崛起。这些应用的设计理念在于创造训练数据,同时运用获取的数据去开发和完善产品本身。如此以来,用户能得到更好的应用,而企业也能获得高质量的用户数据。

这种互惠数据应用(RDA)最常见的一个例子就是脸书的照片。

用户上传照片之后,脸书会鼓励用户对照片中的人物(面部)进行标记,方便快捷。这样一标记,方便了你日后搜索这些照片。而标记本身也能吸引好友的关注继而引出对话,而这也是人们喜欢泡在脸书上的量大主要原因。

与此同时,这些标记行为也生成了大量的训练数据,并被运用到机器学习模式中去。更好的机器学习模式则会给用户带来更好的标价建议和其他功能。得益于RDA这种应用,脸书才有了世界上最好的人脸识别技术(之一)。

谷歌搜索则是另一个RDA应用案例。你的搜索和选项为谷歌提供了训练数据,反过来谷歌利用这些数据来提升搜索体验。

不管是脸书照片还是谷歌搜索,以及一些其他的RDA应用,他们都能产生一种网络效应。使用一个应用的人越多,产生的数据就越多,最终这些数据就会让应用变的更好,最终更多的人来使用这个应用。

在赢家垄断的市场,网络效应是风投公司需要的发展引擎。之前在硅谷常见的网络效应就是社交/聊天(你的朋友去哪儿,你也会想跟着去)或者市场。(买家扎堆集结在消费者多的地方)

这也是为什么几乎所有的非市场、由风投资助的应用或服务都挤破头想要增加分享或者聊天功能的原因,即便这在他们的应用中看起来多么的格格不入。 (支付宝中枪)

RDA是创建网络效应的新方法,这一点时至今日才被人们意识到。随着其商业价值被人们所认识,它必将会被更广泛的运用。

RDA的普及将会是机器学习的第一要务。不仅是因为RDA能带来资源,还因为RDA能影响到硬件和软件。



以下是RDA的一些属性:

  1. 应用必须联网,最好是一直在线。否则就无法将收集到的数据传回服务器。
  2. 几乎所有的计算都要跳脱出设备进行。主要计算任务就是机器学习模式的创建,而这需要访问用户创建的大量训练数据集。因此,模式的创建不在设备本身进行。
  3. 把新数据和已经计算好的模式进行对比,计算成本是比较低廉的。(经典案例就是图片中的人脸识别或者语音识别)
  4. 好的应用需要庞大的用户群来支撑。拥有大量的用户,才有可能获得更多的训练数据。
  5. 好的应用需要用户更多的去使用。用户使用应用能够的时间越长,就意味着可以创建更多的训练数据。
  6. 好的应用能促进精准训练数据的产生。如果一个应用bug频出,那收集到的数据质量也不高。应用的设计要便于用户快速、精准的输入数据。

那么怎么去开发一款优秀的RDA应用呢?

零和游戏的挑战,

用收集速度衡量RDA的价值

RDA的数据价值可以通过具体产品来呈现,尤其上文的后三点所对应的产品。(3、4、5)

比方说,你可以有一个相对小的用户群,但是要确保这些用户能花费较多的时间在你的应用上,并且以一种可靠的模式给你提供数据。(比方说社交应用Tinder, 就是通过大量的训练数据结果来决定推送的图片是否对用户有吸引力)

当然你也可以拥有一个更庞大的用户群,用户会时不时的给你提供训练数据。(比方说脸书,用户只会在上传完图片后对其中任务进行标记,这种标记就是在为脸书提供训练数据)

这边我们所面临的挑战是,上文中的第3点和第4点其实是一种零和游戏。如果说全世界50%的用户贡献了20%的时间在脸书上,那么留给你的应用的时间就没多少了。

哪怕你建立起庞大的用户群,一天从他们身上争取到两分钟的时间,你的训练数据也没法超越脸书。因为数据的手机是持续不断的,所以不能根据数据量来衡量RDA的价值,而应该是收集速度。

注:zero sum game,零和博弈,又称零和游戏,与非零和博弈相对,是博弈论的一个概念,属非合作博弈,指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和永远为“零”。双方不存在合作的可能。

但是,如果你能收集到脸书收集不到的训练数据,即使你的用户量少,你也在某种程度上没法被别人超越。因此小公司和初创公司想要有竞争力,得想办法获取独一无二的训练数据。

创建一个有价值的RDA应用有三大途径:

1. 获取大量用户:开发出有竞争力的应用以获取大量用户。硅谷人都深谙此道。开发出一个爆炸性的应用,获得关注,最终得到风投做强做大。当然这是一种偶然的发家途径。

做大之后,不断改善你的应用来更好的收集训练数据,从而更好的实现训练数据价值的多样化。这条路很难,需要大量的运气,还有大量的资金。

这就像是第22条军规一样,一旦你做大,随之而来就是大量的金钱投入广告。因此我们不推荐走这个途径。

注:“Catch-22”,小说名字,已经进入英语词典之中,成为常用的英语词汇。它代表了统治者对于民众的愚弄,也代表了民众对于统治者的抨击。

2. 获取大量用户时间:开发能够说服用户在上面花费大量时间的应用。大多数情况下,这类应用或者服务属于被动使用。比方说导航应用,或者一直在线的数字助理。这类应用能随时为人们提供信息,同时也提高了产生训练数据的速度。

3. 收集独一无二的训练数据:开发能收集别人收集不到的数据的应用。这种情况下,你的应用在一开始不需要规模多宏大,但是要有收集独一无二训练数据的远见和目标。

这样的数据之后会帮助你给你的应用打造独一无二的新功能。这些新功能需要有足够的吸引力,来鼓励更多的用户下载使用。

另外,要在大量的竞争对手调整其应用设计进入市场之前,保证你收集数据的速度够快。如此一来,你才有超越谷歌或者脸书的可能。



你可能意识到上述第2条途径可能不太适用于运行在智能手机上的应用。其实不然!通过把计算引入到新的运行环境中,我们能够创造出更稳固的RDA应用,从而增加用户的使用时间。

或者,新的运行环境会带来新的训练数据,某种意义上就是上述第3条途径所说的独一无二的数据。

值得庆幸的是,几乎所有的RDA功能价值的实现都是通过远程服务器处理大量数据来实现,设备本身是被“解放”出来的。因为价值实现放在统一的服务器上,因此RDA应用本身能适用于更多的设备和使用场景。

人们不怎么提Pebble的运行速度是有原因的,因为它的计算和处理是并不是由设备本身进行。

注: Pebble智能穿戴厂商。

Pebble Core

第一款非手表类的可穿戴设备

当大部分计算任务都在服务端进行时,真正运行RDA的设备就不需要进行太多的计算。设备不需要太强的CPU, 因为它只需要把数据放置到预先定义好的数据模式中,进行简单的对比运算。

运行速度慢的CPU意味着更小的体积,这也意味着只需少量的晶体管,所以散热也会较少。它们的能耗也比较低,所以可以配备更小的电池。更重要的一点是:成本低!

这一切都意味着能搭载RDA应用的设备会疯狂的普及。比方说我们能在一个产品中搭载便宜的计算设备,又能够连接无线网,从而收集高质量的数据,那何乐而不为呢? 

所以最后我们会看到RDA应用无孔不入:你的车子里面,你的手臂上(穿戴设备),你的浏览器中、蓝牙音响中,等等等等。

一个明显的例子就是Pebble Core, 一款定位为计步和音乐播放的穿戴设备,其实就是一个具备基本计算功能的电子狗。价格低廉只要69美元,配备低能耗CPU、 WiFi、 移动数据连接、蓝牙、轻量存储、耳机、两个按钮和一块电池。

注:Pebble Core历史上第一款非手表类别的可穿戴设备,一个类似iPod Shuffle 的设备(Pebble官方比喻),具备音乐播放器功能。

通过把Alexa所需要的计算转移到服务器端,亚马逊可以把Alexa部署到各个地方。Alexa目前已经深入到蓝牙音箱、HDMI接口等任何可以搭载Alexa的地方。而Alexa走入汽车也是不远的事了。

正因如此,亚马逊和其他公司都在积极的拓展他们的产品和服务,好让你在上面画更多的时间。在未来,这会带来新的训练数据,从而反过来创造更好的机器学习模式。



需要说明的是,钻研机器学习的企业并不是为了生产出更强大的设备。因为设备本身的普及有着价格和更新换代快的局限在那儿,因此要普及的是RDA本身的机制。

我们预测行业的焦点不会放在创造出强大的设备,而是放在所搭载的RDA应用本身计算能力的提高上。

更好的业务模式,

该如何利用RDA网络效应创造?

总结下来,机器学习将会对科技行业带来以下价值:

  1. 赢家们会赢的更多:当下的佼佼者比如脸书和谷歌会继续保持领先。他们有着大量的用户和用户使用时间,海量的训练数据和资金。所以你要是想迎着头去也去收集同样的数据来跟他们竞争,那你基本上没戏了。
  2. 成功的初创公司将会去收集独一无二的训练数据:他们可以避开谷歌和脸书的优势,去开辟新领域的训练数据的收集。
  3. RDA是新型的网络效应模式:随着其出现和成熟,企业和投资者会更好的理解如何通过RDA的网络效应来创造更好的业务模式。
  4. 机器学习会加速物联网的到来:硬件的能力可能会停滞不前,但是未来计算机将会拓展到。

原文发布时间为:2017-05-30

本文作者:Drew Breunig

本文来自合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

时间: 2024-10-01 15:57:53

停留在“玩具”层面的机器学习,该如何深入?的相关文章

“智慧城市”不应停留在技术层面

本报记者 张骏 百兆光纤入户.随时随地无线上网,就是"智慧城市"?物联网.各种"云"覆盖下的城市生活,就是"智慧城市"生活?市政协昨天审议的 <上海智慧城市建设发展共识研究(草案)>提出:智慧城市不能只停留在技术层面,要超越"数字城市"."智能城市"等理念,在信息技术深化应用的基础上,真正促进转型发展,创造宜居生活,激发社会活力. "智慧城市的提出,是有现实意义的,是为了应对全球城市发

机器学习开发者的现代化路径:不需要从统计学微积分开始

编者按:机器学习算法的传统学习路径,是从统计学.概率论.线性代数.微积分等多种数学知识开始,但专业程序员.机器学习爱好者.MachineLearningMastery.com网站大拿Jason Brownlee博士认为这种自下而上的方法停留在算法层面,没有考虑到软件开发和交付,不适合专业程序员,他在一篇文章中面向程序员介绍了一种有别于传统的机器学习入门攻略,让您能够简单.高效地实现从开发者到机器学习践行者的飞跃.CSDN将其节选翻译,包括传统学习方法为什么失灵,如何使用现代的方式和"单项最优&q

【对标TensorFlow】阿里公开内部超大规模分布式机器学习平台

近年来,随着"大"数据及"大"模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注.针对这一刚需,阿里集团和蚂蚁金服设计了自己的分布式平台--鲲鹏.鲲鹏结合了分布式系统及并行优化算法,解决了大规模机器学习算法带来的一系列问题,不仅囊括了数据/模型并行.负载平衡.模型同步.稀疏表示.工业容错等特性,而且还提供了封闭好的.宜于调用的 API 供普通的机器学习者开发分布式算法,降低使用成本并提升效率.相关论文在本届 KDD 以口头报告的形式发表(应用数据科学 Tr

如何搭建大规模机器学习平台?以阿里和蚂蚁的多个实际场景为例

近年来,随着"大"数据及"大"模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注.针对这一刚需,本论文设计了一个独一无二的分布式平台--鲲鹏.它无缝的结合了分布式系统及并行优化算法,解决了大规模机器学习算法带来的一系列问题.鲲鹏不仅囊括了数据/模型并行.负载平衡.模型同步.稀疏表示.工业容错等特性,而且还提供了封闭好的.宜于调用的API供普通的机器学习者开发分布式算法,降低使用成本并提升效率. 本论文的实验在十亿级别的样本和特征数据上进行,结果表示,鲲鹏这

《TensorFlow技术解析与实战》——导读

前言 缘起 2017年2月,TensorFlow的首届开发者峰会(2017 TensorFlow Dev Summit)在美国的加利福尼亚州举行.在会上,谷歌公司宣布正式发布TensorFlow 1.0版本.本书就是基于最新的1.1.0版本来介绍TensorFlow的技术解析和实战. 人工智能大潮来了.2016年,AlphaGo击败围棋大师李世石后,人工智能的应用仿佛一夜之间遍地开花.在科技潮流的大环境中,现在硅谷的用人单位越来越倾向于雇用既懂理论(思考者)又懂编程(执行者)的工程师.思考者的日

PCI Express正筹备升级至32G

铜缆互连机制将迎来新的历史性升级,最早将于2019年推出的第五代PCI Express将实现每秒32 G传输能力.PCI特别兴趣小组在本届年会上公布了此项计划,并表示这套方案将彻底终结原本的第四代每秒16 GT性能规格. 这一消息标志着此项当前得到广泛使用的计算机互连技术将迎来显著提速--事实上,随着近年来PC市场发展速度的放缓,该互连性能水平一直处于停滞状态.与此同时,以CCIX.GenZ以及OpenCAPI为代表的其它多种开放互连方案亦在快速兴起当中. 第五代PCIe将采用128-/130-

专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用

12月6日-7日,由阿里巴巴集团.阿里巴巴技术发展部.阿里云联合主办,以"2016双11技术创新"为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办.(https://yq.aliyun.com/promotion/139) 系列文章陆续发布: 专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用 专访阿里巴巴林伟:三项世界级挑战背后的思考.实践和经验 专访阿里巴巴魏虎:揭秘阿里双11背后的全站个性化&商铺千人千面 价

深度 | 区块链对人工智能的变革:去中心化将带来数据新范式

近年,从围棋到人类水平的语音识别,人工智能(AI)研究者终于在他们几十年一直努力探索的领域取得了突破.取得突破进展的关键一点是研究者们可以收集巨量的数据并「学习」这些数据,从而将错误率降低到可接受范围以内. 简而言之,大数据大为改观了人工智能的发展,将其推到一个几乎难以置信的高度. 区块链技术同样能够变革人工智能--当然以它自己的特定方式进行.部分将区块链用于人工智能方式目前还很单一,比如在人工智能模型上进行审计跟踪(audit trail).有些应用几乎是难以置信的,比如拥有自己的人工智能--

智能数据变革来临:我为什么看好Chinapex创略模式

在不少人认为这是一个创新的时代,这是一个变革的年代.因为唯有创新与变革,才能给今天的中国社会与经济注入"新动能".过去的十多年,因为互联网技术和模式的出现,中国社会经济不断创造"新动能",我们的广大企业积极参与创造了诸多创新奇迹.我本人作为第三方"外脑",参与了这几年绿公司年会的主题讨论过程,在我看来经济新动能的前提是技术模式和商业模式的双重创新. 在当前能为技术和模式创新尤其是模式创新,写下坚实注脚的无疑就是我们的"智能数据管理和智慧