据雷锋网消息,近日,来自莫斯科物理科技学院(MIPT),InSilico
Medicine和 Mail.Ru集团的研究人员首次将生成神经网络(generative neural
network )应用在研发拥有特定医疗属性的药物上。这种用生成对抗网络(Generative Adversarial
Networks ,GANs)发展、训练新的分子结构的方法,能大幅度减少寻找有潜在药物特性物质的时间和其他成本。研究人员表示,将把该技术应用在肿瘤、心血管疾病甚至抗感染等多个医疗领域。(雷锋网(公众号:雷锋网)此前曾在《硬创公开课》中和大家分享过有关GANs的原理、应用和走向等内容,详情请点击这里)
无机分子基( inorganic
molecule
base)包含数亿种物质,但其中只有少数能被人类应用在医疗领域。研究人员用药理学方法研制药物通常会基于前人的研究成果。例如,阿司匹林很早以前就已经被用作药物,但药理学家以后还会基于当下的成果继续研究它,为该化合物增加其他成分以减少它的副作用、提高药效。今年早些时候,来自 Insilico
Medicine的科学家向公众展示了用深层神经网络减少搜索药物范围的有效性。但如今他们正面临着一个新的挑战:是否能用大量分子结构去训练深层神经网络,然后让该网络创造一种概念上的新型分子?
生成对抗自动编码器(Generative
Adversarial Autoencoder
,AAE)结构是GANs的延伸。研究人员把它作为基础,加上已知的医疗特性和有效浓度,将之用在训练神经网络上。研究人员会把和所需化合物相关的信息输入到网络中,网络对其进行调整后会输出类似的数据。
网络由三个部分构成:编码器,解码器和鉴别器。其中每一个在与另两个“协作”中都有自己特定的角色。
编码器与解码器一起压缩、恢复母化合物的信息,而鉴别器则使压缩后的信息更适于恢复。
当网络已经学习过大量已知分子结构后,编码器和鉴别器则会结束工作状态,网络就能用解码器自动生成对分子的描述。
开发基于文本输入而生成高质量图像的生成式对抗网络,需要拥有丰富的专业知识,并且要在高性能计算设备上进行长时间的训练。
对于生成图像和视频而言,研究人员则可以快速判断生成质量如何。但在生物学中,质量控制不仅不能通过“看”来解决,并且还需要大量的验证实验来产生大分子。
在系统中,所有分子均表示为“SMILEs”或化学物质图形注释(雷锋网注:graphical
annotations of chemical
substances,目的是它们的结构能储存在系统中)的形式呈现。学校里教授的标准注册(standard
registration)不适于网络处理。SMILEs也是如此,因为它们的长度是随机的。而神经网络训练需要一个相等的描述长度的向量。这时候,分子“指纹”便能解决这个任务,因为它包含关于分子的完整信息。
该技术的其中一个研究人员Andrei Kazennov,和在Insilico Medicine工作的MIPT研究生评论说:
“我们创造了一个生殖类型的神经元网络,也就是说它能够生成训练它类似的东西,最终教会该网络模型根据指定的属性创建新的分子“指纹”。
另外,也可以把抗癌药物数据库用于网络检查。 首先,网络用其中一半的药物化合物信息进行训练,然后再检查另一部分。目的是让它预测已学习过,但在训练时未包含在内的化合物。结果是网络识别出了69种预估化合物。
Mail.Ru集团搜索优化团队首席程序员、Insilico医学独立科学顾问Artur Kadurin总结道。
“GANs是神经科学领域相当前沿的研究领域。很明显,与生成图像、音乐相比,它的应用范围更广。我们已经在生物信息学中尝试了这种方法,并且获得了巨大的成果。“
本文作者:夏睿
本文转自雷锋网禁止二次转载,原文链接