爱吧机器人网 » 技术 > 机器学习 > 正文

谷歌研究院在化学发力:应用机器学习技术预测分子性质

最近,机器学习在化学领域的应用有很大进展,特别是化学搜索问题,从药物筛选、电池设计到OLEDs设计,催化剂的发现。 历史上化学家使用薛定谔方程做数值近似来解决化学检索问题,如使用密度泛函理论(DFT),然而近似值的计算成本限制了搜索的规模。
 
为了能够扩大搜索能力,雷锋网了解到已有几个研究小组使用DFT生成的训练数据,创建ML模型来预测化学性质,例如Matthias Rupp等用机器学习模型来预测各种有机分子的原子化能,J?rg Behler 和 Michele Parrinello引入DFT势能面的一种新的神经网络表征。在这些工作的基础之上,谷歌研究院在QM9基准数据集(配有DFT计算的电子,热力学和振动性质的分子集合)上应用了各种机器学习方法。
 
谷歌研究院发布了两篇论文,介绍了他们在这一领域的研究,研究工作由Google Brain团队,Google Accelerated Science团队,DeepMind和巴塞尔大学合作完成。 第一篇论文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》调查了回归分子和分子表征的选择对快速机器学习模型的影响,模型用于构建有机分子的十三个基态电子性质,每个回归/表征/性质组合的性能通过学习曲线评估,该曲线描绘近似误差,以此作为训练集大小的函数。论文在QM9基准数据集上测试了多种机器学习方法,并集中改进最有希望的深层神经网络模型。
 
第二篇论文《Neural Message Passing for Quantum Chemistry》描述了一种称为消息传递神经网络(MPNN)的模型族,将其抽象地定义为包含很多对图形对称性具有不变性的神经网络模型。研究团队在MPNN模型族中开发了新变体,性能明显优于QM9基准测试的所有基准测试方法,另外某些目标的性能改进了近四倍。
 
从机器学习的角度来看,分子数据之所以有趣,原因之一是一个分子的自然表征以原子作为边界的结点和键。能够利用数据中固有对称性的模型更容易泛化,这很容易理解,卷积神经网络在图像识别上之所以成功,一部分原因是模型能够记住图像数据中的一些不变性知识,比如把一种图片中的狗挪到图片左边还是一张狗的照片)。 图形对称性这一固有特征是机器学习处理图像数据非常理想的性质,在这领域也有许多有趣的研究,例如Yujia Li等研究了结构化图片的特征学习技巧,David Duvenaud等应用图像神经网络学习分子指纹信息,Steven Kearnes等提出一种机器学习模型用于无向图的学习。尽管这一领域已有所进展,谷歌研究院希望找到化学(和其他)应用模型的最佳版本,并找出文献中提到的不同模型之间的联系。
 
谷歌研究院提出的MPNN模型提高了QM9数据集任务(预测所有13种化学性质)的最好性能,在这个特定的数据集上,他们的模型可以准确地预测13种性质中的11个,这样的预测性能已经足够准确,能对化学家未来的应用有帮助。另外,此模型比使用DFT模拟要快30万倍。但是在MPNN模型走向实际应用之前还有很多工作要做。实际上,MPNN模型必须应用于比QM9数据更多样化的分子集合(例如数目更大,变化更大的重原子集合)。当然,即使有了更真实的数据集,模型的泛化性能还是很差。克服以上两个挑战需要解决机器学习研究的核心问题,例如泛化。
 
预测分子性质是一个非常重要的问题,它既是先进的机器学习技术的应用场景,也为机器学习带来了非常有趣的基础研究课题。最后,分子性质的预测有助于造福人类的新药物和材料的设计。谷歌科学家们认为传播研究成果,帮助其他研究者学习机器学习应用都是及其重要的。

雷锋网(公众号:雷锋网)编译


上一篇:革命正在发生!机器学习将带领人类走向何方?
下一篇:麻省理工开发这个机器学习系统,能让机器人互相学习!
精选推荐
可编辑神经网络,有望简化深度学习?
可编辑神经网络,有望简化深度学习?

[2019-10-04]  深度学习是一个计算繁重的过程。 降低成本一直是 Data curation 的一大挑战。 关于深度学习神经网络大功耗的训练过程,已经有研究人员 ...

智能机器人困惑的时候知道该问什么问题
智能机器人困惑的时候知道该问什么问题

[2017-03-20]   照片:Nick Dentamaro 布朗大学 上周,我们提到了麻省理工学院的一些研究,即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

MIT用深度学习处理3D点云数据 应用于无人汽车等领域
MIT用深度学习处理3D点云数据 应用于无人汽车等领域

[2019-10-23]  如果你见过自动驾驶汽车,也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器,无人驾驶汽车依靠它在现实世界中进行导航。 ...

人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

全自动膝关节置换手术机器人被美国FDA批准上市
全自动膝关节置换手术机器人被美国FDA批准上市

[2019-10-14]  美国Think Surgical公司已获得美国食品和药物管理局(FDA)的批准,在美国销售用于全膝关节置换(TKA)的TSolution One®全膝关节应用 ...

麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群
麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群

[2019-10-31]  几天前,小编向大家介绍过麻省理工(MIT)研发的一种自组装机器人集群(点此阅览),它们可以用统一标准的小单元自动组装出各种大型结构。 ...

[2018-01-26]  纽约时报的报道,德国的研究人员已经开发出一种长约七分之一英寸的机器人,首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路,跳跃,爬行,滚动和游泳。它甚至爬出......

本周栏目热点

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......

机器人是怎么深度学习的?

[2016-03-29]      一个人独处时,感觉有点孤单,怎么办?微软亚洲研究院推出的微软小冰,或许 ...