严格的说,Scot Barton似乎不像是一名人工智能先驱。他并没有在建造自动驾驶车辆,也没有训练电脑如何在电脑游戏中击败人类。但是值得注意的是,在其所就职的农夫保险公司(Farmers Insurance)里,他正在为某技术开创道路。
Barton领导着一个分析数据的团队,主要回答关于客户行为和不同政策设计等问题。从深层神经网络到决策树,他的团队现在正在使用各种尖端的机器学习技术。但是Barton并没有雇用一批人工智能魔法师来实现这一点。他的团队使用了一个被称为DataRobot的平台,它可以将所涉及的很多困难工作自动化。
未来几年人工智能会如何发展。除了阿尔法狗令人叹为观止的表现,人工智能确实也正在改变整个行业。但有一点我们是需要注意的,有必要让AI从总体上变得更加易于使用。
问题是,现有的人工智能技术涉及到的许多步骤目前都需要大量的专业知识。而且,这不像是在表面上搭建一个友好的界面那么简单,因为工程师们在编写和调整代码的时候经常需要进行判断并需要使用到专门的技术。
但是,人工智能研究人员和公司正在通过将这项技术应用于自身来解决这个问题,利用机器学习将人工智能算法开发中棘手的问题自动化。一些专家甚至建立了相当于人工智能支持的操作系统,旨在使该技术的应用程序与今天的微软Excel一样简单易用
DataRobot是朝着这个方向迈出的一步。你提供原始数据,平台对其进行自动清理并重新格式化。然后,它一次运行数十种不同的算法,并对其性能进行排名。Barton首先通过输入一堆保险数据来查看是否可以预测特定的美元价值的方法来尝试使用这个平台。与标准的手工统计方法相比,所选择的模型的错误率降低了20%。他表示,“开箱即用,按一个按钮;这实在是非常令人印象深刻。”
人工智能技能缺口
今年六月,咨询公司麦肯锡发布了一份报告,披露了人工智能应用的现实。这份报告的结论是,人工智能——特别是机器学习,可能会彻底改变包括制造业、金融业和医疗保健行业在内的大型行业,到2025年可能会在美国经济中总共占到1260亿美元的规模。但是,报告有一个严重的警告:关键人才的短缺。
培养尽可能多的人使用人工智能当然是非常有帮助的。但是这需要时间,而且不是每个人都能成为人工智能大师的。对于任何一种技术来说,要想最大限度地发挥它的影响,就要让它能够尽可能方便地被使用。只有当人工智能能够渗透进入普通的办公室和工作场所,才能实现这一点。DataRobot已经被用于一些这样的场合了。
一天下午,坐落于波士顿金融区的DataRobot办公室空荡荡的,一大批工程师围着一台大型显示器乱转。该公司的咨询师Jonathan
Dahlberg给我做了一个演示,该公司的解决方案真的是令人印象深刻。他加载了一个贷款申请和付款的公共数据集,然后他让系统开发出一堆模型,看看关于为什么人们会违约是否有什么模式。
几秒钟后,屏幕上出现了数十种竞争算法;在顶部是一种被称为XGBoost的、相对无趣但被广泛使用的梯度提升技术。很快,屏幕上就显示申请人的收入特别重要,但他们想要贷款的原因也是如此。它发现,在申请中提及“创办企业”的人是一个特别糟糕的群体。
Dahlberg表示,DataRobot可能会在专业知识和技能方面,与一个非常好的数据科学家旗鼓相当,但它可以提供更广泛的视角。一个人可能会太依赖某种技术,而DataRobot可以自动地找到一种从根本上更好的方法。用户还可以使用Python或R编程语言手动修改底层算法。不经过仔细的检查,很难知道该系统在自动化数据科学的一些棘手问题方面到底做得如何,如数据清理和功能工程,但它似乎对付了一个惊人的数量。
该公司的首席执行官Jeremy Achin在观看了《社交网络》(《The Social Network》)之后备受激励,萌生了想要创办一家企业的想法,当我们在麻省理工学院附近的咖啡馆会面时,他承认当时还有点懦弱。但是,他在数据科学比赛中获得了DataRobot的灵感,这些竞赛是由众包平台Kaggle举办的,该平台在今年早些时候被谷歌收购了。Kaggle为从大型数据集中进行特定预测时表现最佳的算法提供奖品。这一任务通常涉及开发一种机器学习算法,用于对数据进行处理。作为Kaggle最早的参赛选手之一,Achin意识到自己已经在每场比赛中自动化了很多步骤。
他表示,“我认为,如果我们收集了足够多的数据集,足够多的问题,并且运行了足够多的实验,我们就可以在机器学习上进行机器学习。这是就是最初的想法。”
这个想法显然引发了投资者的共鸣。DataRobot自2012年创办开始,已经筹集了超过1亿美元,其中包括今年3月份筹集到的5400万美元,与此同时,Kaggle被谷歌收购了。该公司表示目前已经拥有一百多个客户。Achin表示,这个概念在很多数据科学家那里并不是那么受欢迎,他们要么认为自己的技能无法被自动化,要么则是担心这些技能会被自动化。但是他相信,对绝大部分企业来说,如果想要使用人工智能,就没有别的选择。他表示,“我不在乎有多少人在LinkedIn上将他们的头衔改为‘数据科学家’”。他表示,“你不会有很大改观。”
自我学习系统
数据科学家的短缺激发了许多其他的人开始致力于自动化机器学习方面的工作。越来越多的研究论文正在使用技术将越来越多人工智能方面的工作自动化。
谷歌是全球最大的玩家之一,该公司也将注意力转向了这个想法。谷歌已经大笔投入,开发了强大的人工智能算法并将其部署到其服务中。但该公司也热衷于为其云服务添加更多的人工智能。除了简单的图像或文本分类工具之外,还意味将更多机器学习模型训练工作自动化。
负责领导谷歌人工智能工作的计算机工程师John Giannandrea表示:“目标是使这项技术更易于使用” 。他表示,“然后任何人都可以说‘为我建立一个预测模型’,然后它就会去做一个模型。”
今年早些时候,该公司宣布了围绕着这一目标的一些重大进展,展示了一种能自动化地调整深度学习神经网络的实验性的方式。
这些可能是最强大的机器学习算法,它们显着提高了图像和语音识别领域的最高技术水平。但它们也很难工程化。Giannandrea表示,这项工作正在产生一些非常有希望的结果,在某些情况下与手动开发的系统的性能不相上下。
而且他希望谷歌能够在未来几个月内发布更多的结果。
其他人甚至还做出了更宏大的设计。例如,卡内基梅隆大学教授Eric
Xing正在开发相当于是由不同机器学习组件构建的操作系统。该操作系统使用虚拟化和机器学习来抽象设计和训练人工智能工作中的大部分复杂性。它甚至配备了一个图形用户界面,可用于训练特定数据集上的机器学习模型。
Eric Xing在中国受过教育,并在加州大学伯克利分校(UC Berkeley)与Andrew
Ng一起学习,他现在是世界知名人士的知名人物。他非常有礼貌,而且令人意外的是,他想要改变人们使用电脑的方式。Eric
Xing设想他的人工智能操作系统会非常简单易用,就像微软的电子表格软件——Excel一样。他表示,“这是整个人工智能行业的核心问题”。他表示,“进入的门槛太高了。”
Eric Xing已经创办了一家公司——Petuum,来开发这个操作系统,并且已经开发了一系列工具,旨在将机器学习引入医学领域。他表示,“医生需要一个界面和医疗记录、图像——每一种图像都需要不同的机器学习方法。” Petuum正在加紧准备发布平台。
Petuum的操作系统和其他一些人工智能自动化工具将面临一些独特的挑战。已经有关于机器学习算法无意中吸收了训练数据的偏差的担心出现,而有些模型太不透明,无法进行仔细检查(参见《人工智能核心中的黑暗秘密》“The
Dark Secret at the Heart of AI”)。如果人工智能变得更加容易使用,这些问题可能会变得更加广泛和更加根深蒂固。
微软高级研究员Rich Caruana表示:“要想把机器学习做得很好,你需要博士学位和大约五年的经验。”他表示,“有很多陷阱。您的算法是否在六个月后过期,它是否可以解释?”
数据科学家为防范这些问题而必须采取一些步骤,Caruana相信这些步骤中的一部分应该是有可能自动化的——这类似于飞行员在飞行前的检查清单。但是他对于过分地信任承诺自动化一切的系统心存警惕。他表示,“我知道这一点是因为一路走来,我一直磕磕绊绊。”
原文发布时间为:2017年10月20日
本文作者:孙博