借助机器学习提高CRISPR基因编辑准确率-应用-专题-爱吧机器人网

借助机器学习提高CRISPR基因编辑准确率

2018-01-14 微软研究院AI头条John Roach 浏览量：

编者按：基因编辑技术CRISPR就像是一种纳米级的“针线包”，可以在特定位置上对DNA进行剪切和修改。为了使CRISPR的操作更加准确，研究员们开发出了一套借助机器学习来让CRISPR减少“脱靶效应”的计算工具——Elevation。目前，Elevation以及另外一款用于预测在靶效应的补充工具Azimuth一起发布在微软Azure上供大家免费使用，同时也以开源的形式向公众开放。本文翻译自Researchers use AI to improve accuracy of gene editing with CRISPR。

从左至右：微软研究员NicoloFusi，UC Berkeley教授Jennifer Listgarten，Broad研究所副总监JohnDoench

CRISPR（成簇规则间隔短回文式重复）是一项正在彻底改变医疗保健和农业等众多产业的基因编辑技术，就像是一种纳米级的“针线包”，可以在特定基因的特定位置上对DNA进行剪切和修改。这项技术可能会带来突破性的应用，例如对细胞进行修改以对抗癌症，或生成高产、抗旱的小麦和玉米等农作物等。

尽管CRISPR在一些领域有着很好的应用前景，但它也面临挑战：由于很多基因组区域是相似的，纳米级“针线包”可能会意外地在错误的基因上“动手脚”，从而导致意想不到的后果——即所谓“脱靶效应”。

为了解决上述难题，来自美国各地研究机构的计算机科学家和生物学家通力合作，开发了一套可提升CRISPR效率和准确性的计算工具——Elevation，它能借助机器学习预测用CRISPR进行编辑基因时可能出现的“脱靶效应”。

目前，Elevation以及另外一款用于预测在靶效应的补充工具Azimuth一起，已经作为基于云的端到端服务在微软Azure上供大家免费使用，同时也以开源的形式向公众开放。

利用这套工具，研究人员只需输入他们希望修改的基因名称，云基搜索引擎将返回一份向导RNA列表，研究人员可以通过预测的在靶或脱靶效应对其进行排序并选择。

源于自然

CRISPR基因编辑系统源自自然界反病毒机制。科学家于20世纪80年代后期在细菌的DNA中发现了它，此后花费了数十年的时间弄清了它的工作原理。

CRISPR描述了细菌基因组中的一种由多个DNA重复序列区和多个短小的非重复的DNA间隔区组成的DNA序列。非重复间隔区是来自入侵病毒DNA的拷贝，被称为RNA的分子信使将以它为模板，识别后续的病毒侵染。当检测到入侵者时，RNA将CRISPR复合物引导至病毒处，并指派与CRISPR相关（或称Cas）的蛋白质前去切断病毒基因，使之失效。

2012年，分子生物学家想出了改造细菌反病毒系统的方法，用于对植物、老鼠乃至人类等各类生物的基因进行编辑，这就是CRISPR-Cas9基因编辑技术。其基本工作机理如下：科学家设计合成向导RNA，与他们希望剪切或编辑的基因中的DNA序列进行匹配，并用CRISPR相关蛋白剪刀（即Cas9）将其释放到某个细胞中。

今天，这项技术被当作一种有效、精确的方法，被广泛用于了解生物中基因个体的作用，以及如何通过改变基因来完成从抗击疾病到增加食物供给等各项使命。

对于研究人员来说，这个方法最大的挑战就是在给定实验中决定应该选择什么样的向导RNA。因为每个向导RNA中大约有20个核苷酸；在基因敲除实验中，每个标靶基因都有数百个潜在向导RNA。一般而言，每个向导RNA都具有互不相同的在靶效率和不同程度的脱靶问题。

计算机科学家和生物学家之间协作的重点是建立工具，帮助研究人员选择最适和当前实验的向导RNA。

训练模型

为了能解决在试验中正确选择向导RNA的难题，研究人员首先用数据训练了第一层机器学习模型。这些数据记录了与给定的向导RNA有一项核苷酸不匹配的所有可能的标靶区域里发生的脱靶活动。

接着，机器学习专家利用哈佛医学院和马萨诸塞州总医院合作者此前生成的公开数据，对第二层机器学习模型进行了训练，将第一层模型加以细化，并推广到存在一个以上不匹配核苷酸的标靶区域中。

专家表示第二层模型非常重要，因为脱靶活动往往发生在向导RNA与标靶之间存在多个核苷酸不匹配的情况下。

最后，团队用其它几个公开数据集以及哈佛医学院和马萨诸塞州总医院下属合作机构创建的新数据集对双层机器学习模型进行了验证。研究人员发现一些模型特征非常直观的，例如向导RNA与核苷酸序列之间的不匹配。另一些特征则反映了通过机器学习从DNA编码中发现的某些未知属性。

脱靶分值

脱靶分值是针对基因组上可能发生脱靶活动的每个区域，基于机器学习计算出的概率。针对每一种向导RNA，Elevation为研究人员提供了两类脱靶分值：在某个标靶区域里的单项分值和该向导RNA在所有标靶区域的总分。对于每个向导RNA，Elevation都会返回数百到数千个此类脱靶分值。

向导RNA的数量可能成千上万，针对某个特定实验，研究人员想要通过对比这些单项的脱靶分值来选择适合的向导RNA非常困难。所以就需要把所有单项的脱靶分值加总出一个单一的总分，用来反映特定向导RNA的所有潜在脱靶效应在多大程度上会对细胞造成破坏。对于生物学家来说，重要的并非基因组中每个点上的概率，而是某向导RNA的各种脱靶活动导致细胞破坏的总体概率。

来自微软研究院、麻省理工学院、哈佛大学、加州大学洛杉矶分校、马萨诸塞州总医院和哈佛医学院的合作者们已经通过Nature Biomedical Engineering杂志发表了关于Elevation的论文。

精选推荐

Waymo：人性和行为心理学才是无人驾驶最大的挑战

[2019-11-03] 自动驾驶汽车作为AI领域内最大的挑战之一，谷歌致力于其研发已有十余载，现在他们逐渐意识到，最困难的是如何让人们享受驾驶的乐趣。这是一 ...

人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23] 为搜索引擎过滤信息，棋盘游戏对弈，识别图像人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

CES 2018：英特尔推出49量子位芯片争夺量子霸权

[2018-01-10] 在与Google、IBM的一场关于建立量子计算系统的马拉松比赛中，英特尔通过了一个关键的里程碑。近日，这个科技巨头已经推出了一个49个量子位 ...

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人（巨型机甲）

[2017-03-21] 近日，亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想，他控制了一个巨大的机甲机器人。据国外媒体Verge报道，前天（3月19日），贝 ...

如何让人工智能机器人快速自我纠正错误并吃一堑长一智？

[2017-08-23] 莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章，概述了新算法的数学基础，可以使人工智能收集错误报告并立即纠正，而不影响现有技能，同时还会积......

Crossbar将电阻式RAM推入嵌入式AI

[2018-05-17] 电阻RAM技术开发商Crossbar表示，它已与航空航天芯片制造商Microsemi达成协议，允许后者在未来的芯片中嵌入Crossbar的非易失性存储器。此举是在先进制造业节点的领先代工厂选......

这个外科手术机器人可以为患者“量身定制”

[2019-07-12] 世界首创，来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界，他们创造了可定制的、小型化的手术机器人，能够唯一地 ...

智能农业：种地的事儿未来全交给这些机器人吧

[2019-12-07] SRC公司创始人Sam与温波尔庄园农场经理Callum Weir以及监控机器人Tom总部位于英国的农业科技初创公司SRC（Small Robot Company），正在 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

日本研发狼型机器人稻田边威慑动物保护庄稼

[2017-08-29] 　　8月25日，在日本木更津，狼型机器人超级怪兽狼站在稻田边，威慑可能危害庄稼的野生动物。当野生动物接近庄稼地，装有红外感应器的机器 ...

机器人做食管癌大手术打几个“钥匙孔”就完成

[2016-07-12] 　　昨天，记者从在津召开的全国第三届食管癌南北论坛上获悉，微创手术现已成为食管癌治疗的主要发展方向，超过六成的患者可接受包括达芬奇 ...

雾计算应用案例分析：无人机领域快递的应用

[2016-09-01] 　　导读：无人机，是典型的物联网相关应用。传统的快递行业，面临着巨大的人员开销，设备成本，安全问题。然而，无人机快递，却可以精 ...

以品质立足世界，纳斯达克大屏上的Airwheel平衡车

[2015-12-23] 　　摘要：12月15日，Airwheel在美国证券交易所纳斯达克广告屏上对旗下的产品以及所推崇的出行理念进行宣传投放。在12月12日亚马逊全线封禁 ...

揭秘！越来越多编辑部开始自动化办公，AI会取代编辑吗?

[2018-05-22] 有人说，机器人和人工智能是下一场工业革命，它们会比以往的工业革命——蒸汽、电、计算机更具颠覆性，因为它们不仅仅会取代常规，还会取代 ...