机器学习在研究论文中越来越多地出现——它真的有用吗?
功能 强大的人工智能算法和模型风靡一时。它们在语言翻译和图像识别等领域表现得非常好,简直好到出人意料,但是自动驾驶汽车和聊天机器人?就没那么好了。
科学研究是机器学习可以表现得非常棒、超出大家预期的一个领域。随着人工智能的进步,其潜力正在被学术界掌握。使用机器学习的自然科学研究的数量正在稳步上升。
两篇独立的论文显示了神经网络能够如何被训练用于精确定位粒子的精确移动导致物理相变——这可以帮助科学家理解诸如超导等现象,这两篇论文是本月早些时候的同一天发表在《Nature Physics》上。
化学是人工智能可以玩的游戏
德国University of Münster化学教授Mark Waller的博士生Marwin Segler表示,科学同人工智能之间的关系已经存在了一段时间了。Marwin Segler说,他是德国明斯特大学Mark Waller教授研究化学的博士生。然而直到现在为止,这种关系还没有取得巨大的成果。
Segler对逆合成感兴趣,该技术揭示了所需分子可以如何分解为更简单的化学构建块。然后,化学家可以采取必要的反应步骤,用这些结构单元制备所需的分子。这些分子然后可以用于药物和其他产品的制造。
Segler对《The Register》表示,将其比喻为“烹饪食谱”是一个很好的类比。“想象一下,你想要做一个复杂的蛋糕。逆合成将告诉你如何做出这个蛋糕,以及你需要哪些原料。”
在20世纪90年代,在深度学习的炒作开始之前,专家系统被用于执行逆合成。反应规则必须手动编程:这是非常沉闷枯燥的工作,它从来没有提供出任何令人信服的结果。
现在看起来有了现代人工智能技术,前景更加光明。逆合成和智力游戏非常相似,特别是围棋。软件可以尝试使用和解决围棋游戏同样的方法以解决逆合成问题:将问题分解为组件部分,并找到解决方案的最佳路径。
在围棋比赛中所有可行的动作可以被描述成巨大的搜索树,并且使用蒙特卡罗树搜索来识别能够取胜的下法——蒙特卡罗树搜索就是阿尔法狗用来击败韩国围棋冠军的李世石的算法。
就像阿尔法狗被训练得能够在围棋比赛中取胜一样, Segler的AlphaChem程序被训练来找到构建所需分子合适的“拼图”的最佳动作。该代码被“投喂了”包含数百万化学反应的库以获得必要的知识库,以最终将分子分解为构建块。
“化学家们依靠他们的直觉,这是他们在长年的工作和学习中培养出来的,优先考虑在分析分子时应用哪些规则。类似于围棋游戏中的掌握下法预测,我们最近显示,神经网络可以学习‘掌握化学行动’而不是手动编码,”AlphaChem论文[PDF]在1月提交给人工智能大会ICLR 2017。
在玩围棋的时候,每一手都有成千上万种可能,就像在试图将分子分解成更简单的组件时需要考虑的途径也有很多种。
阿尔法狗和AlphaChem都通过修剪搜索树来减少计算成本,因此需要考虑的分支较少。只会产生前五十个最有前途的动作,所以它不需要一个花哨的、拥有海量CPU内核和加速器的超级计算机来完成逆合成——一台苹果MacBook Pro就够用了。
在测试阶段,AlphaChem对抗另外两个更传统的搜索算法,寻找40个分子的最佳反应。尽管AlphaChem被证明比最佳优先搜索算法要慢,但是在95%的时间里能够更准确地解决问题。
Segler希望AlphaChem将有一天被用来寻找新的方法,让药物更便宜,或帮助化学家制造新的分子。该软件在未来的版本中有可能会揭示出人类没有思考过的反应和技术。
他表示,现在人工智能技术真的很时髦,对这种技术的大肆炒作引发了科技界的兴趣。这是“但另一方面,它被更多地使用,因为它能够产生更好的结果。”
在人工智能方面的投资已经导致出现了更好的算法,以及大量的框架,例如TensorFlow、Caffe和PyTorch都是公开的,让非专家更容易使用。
Segler对我们表示,“我自己编码了蒙特卡罗树搜索算法,但是对于神经网络,我使用了Keras。”
Segler表示,虽然人工智能技术已经在化学领域中使用了40多年,但与其他科目相比,它在化学中的应用更具挑战性。“在化学领域收集培训数据非常昂贵,因为每个数据点都是一个实验室实验。我们不能简单地注释照片或从互联网收集大量文本,就像计算机视觉或自然语言处理所做的那样。”
首先,许多医疗相关数据是保密的,并且公司通常不会将这些信息共享给化学家和生物化学家用来训练系统。
从化学实验室到星系
数据是人工智能的燃料:你能够提供给机器学习使用的信息越多,它将表现得越好。不同于健康领域的严格监管,天体物理学领域对数据的态度更为开放。地球上最大的空间机构,如美国航天局(NASA)或欧洲航天局(ESA),愉快地分享他们发现的细节,以完成推动太空探索以及宇宙的理解的使命。
这对于使用人工智能软件解决天体物理学挑战的工程师和科学家来说都是一个好消息。
空间仪器也接收大量的数据。在智利建设中的大型天文望远镜(Large Synoptic Survey Telescope)预计每个晚上可以产生3TB的数据——与Square Kilometre Array项目每秒15TB的数据量相比,这还只是很小的数据量,瑞士ETH Zurich物理系的教授Kevin Schawinski表示。
他对《The Register》表示,“天体物理学是一个非常肥沃的地方,因为大型数据集非常适合机器学习。”
Schawinski长期以来一直对星系着迷。他创建了Galaxy Zoo项目,这是一个众包项目,邀请人们在Chris Lintott的帮助下为星系的形状分类,Chris Lintott是BBC的The Sky at Night电视节目的主持人。
数百万颗明亮的星星散落在星际尘埃的漩涡中,所有的背景都是黑曜石一样暗色的背景,看起来很漂亮。我们习惯于看到太空中令人惊叹的照片——这些照片通常用从望远镜拍摄的颗粒状、嘈杂的原件照片进行数字化重新填充。捕捉清晰的图像非常困难,不是望远镜中拍摄的每一张照片都有柯达一刻的效果。
Schawinski对《The Register》表示,“这就像有两个世界。一个世界中宇宙是完美的,你可以看到具有无限分辨率的星系,而另一个由于噪音和失真会有不完美的地方。”
真希望有软件能够智能地清除太空中的图像,并选择特写——例如星系统和星系——供技术专家研究之用。
Schawinski偶然发现了OpenAI研究员Ian Goodfellow撰写的关于一般对抗网络(GAN)的论文,他与蒙特利尔大学的同事一起发明了该模型。
GAN通过使用两个的神经网络——发生器和鉴别器——相互竞争来工作。系统被输入馈送图像,生成器尝试重新创建图片,而鉴别器试图区分计算机制作的图像是真实的还是生成的。
它允许研究人员调整生成器以获得能够通过鉴别器的图像。最终,真实和假的图像会非常相似。
Schawinski意识到GAN可以让他更接近完美的宇宙的想法。“它在点击之后几乎可以立刻用来弥合两个世界之间的差距。”与他的大学计算机科学系的同事一起,Schawinski和他的团队开始用来自Sloan Digital Sky Survey的星系图像训练他的基于GAN的GalaxyGan软件。还向ICLR提交了一份关于GalaxyGan [PDF]的论文。
在训练期间使用成对的星系图像。一个图像是高质量的,另一个是通过模糊图像和添加噪声降级的图像。然后GAN试图学习通过将恢复图片和非降级图片之间差异最小化的方式来恢复图像。这个思路是训练软件以修正因物理效应和其他干扰而扭曲的照片。
一个GalaxyGan恢复模糊图像的范例和去卷积技术恢复模糊图像的对比……图片来源:Schawinski等人
Schawinski警告说,“GAN恢复的图片永远不会比原始未损坏的图片更好。”Schawinski表示,“一方面,你可以找出一些丢失的小特写,这很棒,但另一方面它只是一个统计重建。”
在一些没有遇到过太多次的、比较罕见类型的特写上,它会失败,因为它无法重建还没有学会识别的对象。虽然使用GAN提供了比使用传统去卷积方法校正失真和噪声更好的结果,但是该网络的性能受到其训练集的限制。
如果它的训练方向是螺旋星系,那么它不会在椭圆或不规则的星系上表现得这么好。Schawinski表示,“这是一个新的方法,我们需要校准它,看看它在不同情况下的行为。它具有变革的潜力,但我们需要做更多的研究。”
Schawinski对我们表示,在科学中使用人工智能的趋势正在增长。他注意到热衷于学习如何使用强大算法的物理系学生的数量正在不断增长。他计划继续使用机器学习,甚至建立了一个包含GalaxyGan代码的网站,并为其他有兴趣的研究人员列出未来的项目。
他表示,“人工智能提供了另一套工具,我们需要用它们来创造新的发现。我认为它会附着在事情之上,但它会消失在表面之下。现在它仍然是闪闪发亮的新东西,但过了一段时间,它只会是人们使用的另一种工具。”
原文发布时间为:2017年2月28日
本文作者:作者:黄雅琦
本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。