谷歌研究院在化学发力：应用机器学习技术预测分子性质-机器学习-技术-爱吧机器人网

谷歌研究院在化学发力：应用机器学习技术预测分子性质

2017-04-18 雷锋网浏览量：

最近，机器学习在化学领域的应用有很大进展，特别是化学搜索问题，从药物筛选、电池设计到OLEDs设计，催化剂的发现。历史上化学家使用薛定谔方程做数值近似来解决化学检索问题，如使用密度泛函理论（DFT），然而近似值的计算成本限制了搜索的规模。

为了能够扩大搜索能力，雷锋网了解到已有几个研究小组使用DFT生成的训练数据，创建ML模型来预测化学性质，例如Matthias Rupp等用机器学习模型来预测各种有机分子的原子化能，J?rg Behler 和 Michele Parrinello引入DFT势能面的一种新的神经网络表征。在这些工作的基础之上，谷歌研究院在QM9基准数据集（配有DFT计算的电子，热力学和振动性质的分子集合）上应用了各种机器学习方法。

谷歌研究院发布了两篇论文，介绍了他们在这一领域的研究，研究工作由Google Brain团队，Google Accelerated Science团队，DeepMind和巴塞尔大学合作完成。第一篇论文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》调查了回归分子和分子表征的选择对快速机器学习模型的影响，模型用于构建有机分子的十三个基态电子性质，每个回归/表征/性质组合的性能通过学习曲线评估，该曲线描绘近似误差，以此作为训练集大小的函数。论文在QM9基准数据集上测试了多种机器学习方法，并集中改进最有希望的深层神经网络模型。

第二篇论文《Neural Message Passing for Quantum Chemistry》描述了一种称为消息传递神经网络（MPNN）的模型族，将其抽象地定义为包含很多对图形对称性具有不变性的神经网络模型。研究团队在MPNN模型族中开发了新变体，性能明显优于QM9基准测试的所有基准测试方法，另外某些目标的性能改进了近四倍。

从机器学习的角度来看，分子数据之所以有趣，原因之一是一个分子的自然表征以原子作为边界的结点和键。能够利用数据中固有对称性的模型更容易泛化，这很容易理解，卷积神经网络在图像识别上之所以成功，一部分原因是模型能够记住图像数据中的一些不变性知识，比如把一种图片中的狗挪到图片左边还是一张狗的照片）。图形对称性这一固有特征是机器学习处理图像数据非常理想的性质，在这领域也有许多有趣的研究，例如Yujia Li等研究了结构化图片的特征学习技巧，David Duvenaud等应用图像神经网络学习分子指纹信息，Steven Kearnes等提出一种机器学习模型用于无向图的学习。尽管这一领域已有所进展，谷歌研究院希望找到化学（和其他）应用模型的最佳版本，并找出文献中提到的不同模型之间的联系。

谷歌研究院提出的MPNN模型提高了QM9数据集任务（预测所有13种化学性质）的最好性能，在这个特定的数据集上，他们的模型可以准确地预测13种性质中的11个，这样的预测性能已经足够准确，能对化学家未来的应用有帮助。另外，此模型比使用DFT模拟要快30万倍。但是在MPNN模型走向实际应用之前还有很多工作要做。实际上，MPNN模型必须应用于比QM9数据更多样化的分子集合（例如数目更大，变化更大的重原子集合）。当然，即使有了更真实的数据集，模型的泛化性能还是很差。克服以上两个挑战需要解决机器学习研究的核心问题，例如泛化。

预测分子性质是一个非常重要的问题，它既是先进的机器学习技术的应用场景，也为机器学习带来了非常有趣的基础研究课题。最后，分子性质的预测有助于造福人类的新药物和材料的设计。谷歌科学家们认为传播研究成果，帮助其他研究者学习机器学习应用都是及其重要的。

雷锋网(公众号：雷锋网)编译

精选推荐

科学家从蟑螂获得启发教机器人更好地走路

[2017-12-11] Weihmann指出：“我特别感到惊讶的是，动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定，因为它的重心很低，三条腿总是以协调的方式运动。...

可编辑神经网络，有望简化深度学习？

[2019-10-04] 深度学习是一个计算繁重的过程。降低成本一直是 Data curation 的一大挑战。关于深度学习神经网络大功耗的训练过程，已经有研究人员 ...

哈佛大学《自然》发表新驱动技术，让飞行机器人悬停且不受损伤

[2019-11-06] 哈佛大学研究人员发表在《自然》杂志上的一项最新研究，他们开发了一种由柔软的人造肌肉驱动的机器人蜜蜂（RoboBee），这种机器人在撞墙、 ...

瑞士研发出微型机器人集群可像蚂蚁一样互相交流并协同工作

[2019-07-12] EPFL（瑞士联邦理工学院）的研究人员受到了蚂蚁的启发，开发了一款仅有10克重的小型机器人：他们可以相互交流，分配角色并完成复杂的任务。 ...

如何让人工智能机器人快速自我纠正错误并吃一堑长一智？

[2017-08-23] 莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章，概述了新算法的数学基础，可以使人工智能收集错误报告并立即纠正，而不影响现有技能，同时还会积......

机器人工程师具体都做什么？

[2017-12-08] 机器人工程师是幕后设计师，负责创建机器人和机器人系统，能够执行人类无法完成或不愿意完成的任务。通过他们的创造，机器人工程师帮助工作更安全，更轻松，更高效，特别是......

Waymo：人性和行为心理学才是无人驾驶最大的挑战

[2019-11-03] 自动驾驶汽车作为AI领域内最大的挑战之一，谷歌致力于其研发已有十余载，现在他们逐渐意识到，最困难的是如何让人们享受驾驶的乐趣。这是一 ...

担心机器换人？自1950年以来只有一个职业被机器彻底取代

[2017-03-21] 虽然有很多关于机器人取代工人的担心，但哈佛经济学家James Bessen的论文指出，在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

深度学习反向传播算法（BP）原理推导及代码实现

[2017-12-19] 分析了手写字数据集分类的原理，利用神经网络模型，编写了SGD算法的代码，分多个epochs，每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中，非常重要的一个步骤，......

如何在机器学习项目中使用统计方法的示例

[2018-07-23] 事实上，机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中，我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

模拟退火算法（SAA）

[2017-08-28] 模拟退火（Simulated Annealing，简称SA）是一种通用概率算法，用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理：将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31] 今天我们来讲解的内容是感知器分类算法，本文的结构如下：什么是感知器分类算法，在Python中实现感知器学习算法，在iris（鸢尾花）数据集上训练一个感知器模型，自适应线性神......

机器人是怎么深度学习的？

[2016-03-29] 　　一个人独处时，感觉有点孤单，怎么办？微软亚洲研究院推出的微软小冰，或许 ...