爱吧机器人网 » 技术 > 机器学习 > 正文

谷歌研究院在化学发力:应用机器学习技术预测分子性质

最近,机器学习在化学领域的应用有很大进展,特别是化学搜索问题,从药物筛选、电池设计到OLEDs设计,催化剂的发现。 历史上化学家使用薛定谔方程做数值近似来解决化学检索问题,如使用密度泛函理论(DFT),然而近似值的计算成本限制了搜索的规模。
 
为了能够扩大搜索能力,雷锋网了解到已有几个研究小组使用DFT生成的训练数据,创建ML模型来预测化学性质,例如Matthias Rupp等用机器学习模型来预测各种有机分子的原子化能,J?rg Behler 和 Michele Parrinello引入DFT势能面的一种新的神经网络表征。在这些工作的基础之上,谷歌研究院在QM9基准数据集(配有DFT计算的电子,热力学和振动性质的分子集合)上应用了各种机器学习方法。
 
谷歌研究院发布了两篇论文,介绍了他们在这一领域的研究,研究工作由Google Brain团队,Google Accelerated Science团队,DeepMind和巴塞尔大学合作完成。 第一篇论文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》调查了回归分子和分子表征的选择对快速机器学习模型的影响,模型用于构建有机分子的十三个基态电子性质,每个回归/表征/性质组合的性能通过学习曲线评估,该曲线描绘近似误差,以此作为训练集大小的函数。论文在QM9基准数据集上测试了多种机器学习方法,并集中改进最有希望的深层神经网络模型。
 
第二篇论文《Neural Message Passing for Quantum Chemistry》描述了一种称为消息传递神经网络(MPNN)的模型族,将其抽象地定义为包含很多对图形对称性具有不变性的神经网络模型。研究团队在MPNN模型族中开发了新变体,性能明显优于QM9基准测试的所有基准测试方法,另外某些目标的性能改进了近四倍。
 
从机器学习的角度来看,分子数据之所以有趣,原因之一是一个分子的自然表征以原子作为边界的结点和键。能够利用数据中固有对称性的模型更容易泛化,这很容易理解,卷积神经网络在图像识别上之所以成功,一部分原因是模型能够记住图像数据中的一些不变性知识,比如把一种图片中的狗挪到图片左边还是一张狗的照片)。 图形对称性这一固有特征是机器学习处理图像数据非常理想的性质,在这领域也有许多有趣的研究,例如Yujia Li等研究了结构化图片的特征学习技巧,David Duvenaud等应用图像神经网络学习分子指纹信息,Steven Kearnes等提出一种机器学习模型用于无向图的学习。尽管这一领域已有所进展,谷歌研究院希望找到化学(和其他)应用模型的最佳版本,并找出文献中提到的不同模型之间的联系。
 
谷歌研究院提出的MPNN模型提高了QM9数据集任务(预测所有13种化学性质)的最好性能,在这个特定的数据集上,他们的模型可以准确地预测13种性质中的11个,这样的预测性能已经足够准确,能对化学家未来的应用有帮助。另外,此模型比使用DFT模拟要快30万倍。但是在MPNN模型走向实际应用之前还有很多工作要做。实际上,MPNN模型必须应用于比QM9数据更多样化的分子集合(例如数目更大,变化更大的重原子集合)。当然,即使有了更真实的数据集,模型的泛化性能还是很差。克服以上两个挑战需要解决机器学习研究的核心问题,例如泛化。
 
预测分子性质是一个非常重要的问题,它既是先进的机器学习技术的应用场景,也为机器学习带来了非常有趣的基础研究课题。最后,分子性质的预测有助于造福人类的新药物和材料的设计。谷歌科学家们认为传播研究成果,帮助其他研究者学习机器学习应用都是及其重要的。

雷锋网(公众号:雷锋网)编译


上一篇:革命正在发生!机器学习将带领人类走向何方?
下一篇:麻省理工开发这个机器学习系统,能让机器人互相学习!
精选推荐
深度神经网络揭示了大脑喜欢看什么
深度神经网络揭示了大脑喜欢看什么

[2019-11-06]  爱吧机器人网编者按:近日,《自然-神经科学》发表了一篇论文,研究人员创建了一种深度人工神经网络,能够准确预测生物大脑对视觉刺激所产 ...

南加州大学机器人学家:机器人更适合粗暴的爱
南加州大学机器人学家:机器人更适合粗暴的爱

[2019-11-07]  图片来自JOHN MADERE GETTY IMAGES打是疼骂是爱,当人类粗暴的将物体从机器人手中敲掉,看似残忍,实际上却能帮助机器人找到最好的握持物 ...

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

为未来战场创造更有效的机器人 美国陆军研究人工纳米马达
为未来战场创造更有效的机器人 美国陆军研究人工纳米马达

[2019-10-11]  为了使机器人在战斗中更有效、更多才多艺地成为士兵的战友,美国陆军研究人员正在执行一项任务,即研究肌肉分子生命功能的价值,以及复制过 ...

九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味
九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味

[2019-11-09]  本周,在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上,一群由人工智能驱动的机器人就是这场比赛的 ...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图
谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图

[2019-10-26]  谷歌刚刚宣布,其搜索引擎的核心算法正在进行一项重大升级,这项升级可能会改变10%的搜索结果排序。此项升级应用了自然语言处理技术(BERT ...

如何让人工智能机器人快速自我纠正错误并吃一堑长一智?
如何让人工智能机器人快速自我纠正错误并吃一堑长一智?

[2017-08-23]  莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章,概述了新算法的数学基础,可以使人工智能收集错误报告并立即纠正,而不影响现有技能 ,同时还会积......

本周栏目热点

关于应用机器学习作为搜索问题的入门简介

[2018-01-03]  机器学习的应用可以理解为一个搜索问题,即根据某个项目的已知信息和可获取的资源,找到从输入到输出的最好的映射。在本文你即将看到把应用机器学习当作搜索问题的概念...

[2017-03-02]   随着人工智能的不断发展,许多新的机器学习技术、架构和算法被提出,但这里有三个宏观趋势,将成为机器学习中,游戏规则的改变者。 机 ...

顶级AI会议NIPS压轴2017(附PPT、视频、代码大汇总)

[2017-12-19]  NIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际会议。该会议固定在每年的12月举行...

机器学习之——正则化

[2018-05-18]  最近在刷李航的《统计学习方法》这本书,在很多算法的损失函数里,都出现类似的描述:损失函数最小化原则一般就是用正则化的极大似然估计进 ...

机器学习算法可预测出乳腺癌治疗率(图)

[1970-01-01]    据外媒报道,患有同种疾病的不同病人在接受同一种治疗方案时,其获得的疗效也会存在不同,这就给医生留下了一个难题:他们怎样才能知道 ...