Drug Discov Today | 人工智能辅助药物发现的新道路 - Westlake Omics

如今，高度发达的现代科技已经可以设计出上九天揽月和下五洋捉鳖的深空深海“神器”，却仍然无法推导出完美药物的发现和设计方案。

新药研发是一项漫长、昂贵和低效的系统工程，制药行业的反摩尔定律使得药物发现的成本越来越高、成功率不断下降。

2020年，“人工智能辅助药物设计”入选《麻省理工科技评论》2020年度“全球十大突破性技术”。现代人工智能的发展，给药物研发带来了新的曙光。

作为新药研发的入口，药物发现是目前AI应用得最多也最成熟的环节。据统计，AI能将药物发现时间缩短40%。AI的深度学习领域可以辅助药物发现的多种应用，例如生成小分子结构、辅助类药化合物设计、预测小分子与靶标的作用、筛选化合物与发现先导物等。

本月初，意大利学者Carmen Cerchia等人发表的新文章讨论了AI辅助药物发现的最新技术和示范应用，例如基于生成模型的药物分子设计、研究蛋白质-配体结合过程等。这些研究对AI辅助药物设计有着深远影响，也带来了新的挑战。本文梳理了这篇文章的主要内容，概述了应用于药物发现的最相关的机器学习方法。

目前，尚未有任何一款AI设计的药物成功上市，AI制药还有很长的路要走。

—— 欧米锐评人林木

本文原载于《智药邦》，《西湖欧米》获权转载。

2023年2月2日，意大利那不勒斯大学的 Carmen Cerchia 等人在 Drug Discovery Today上发表文章New avenues in artificial-intelligence-assisted drug discovery。

作者讨论了人工智能（AI）辅助药物发现的当前最新技术、最近的应用，包括用于化学结构生成的生成模型、改善结合亲和力和姿势预测的评分函数，以及协助参数化、特征化和泛化任务的分子动力学等内容。

♦ 背景

深度学习的出现在解决药物发现中的各种问题（如从头分子设计）方面显示出巨大的前景。从头设计技术已被大量利用，为药物发现活动提供了有希望的起点。从头开始的药物设计基本上是指自动构建具有理想分子结构的新化学结构的过程。近年来，结合生成式模型的分子设计越来越受欢迎。

♦ 生成式模型用于药物设计

图1描述了生成式模型用于药物设计的流程。分子可以用SMILES字符串或分子图的形式表示，其中原子表示为节点，键表示为边。

该模型通常基于不同的深度学习架构，它使用大量的分子数据进行训练，目的是生成具有类似性质的新分子。为此，分子表示被转换为潜在表示，随后可以将其解码为重构化合物的必要规则集。基准平台和特定指标用于验证模型的性能和整体复合质量。

图1 生成式模型用于药物设计输入分子表示在控制模型学习阶段（即，模型如何获得分子信息）中具有关键作用。有三种主要表示：（i）1D（例如字符串）；（ii）2D（例如分子图）；以及（iii）3D（例如坐标）。

主流的1D表示是SMILES（简化分子输入行输入系统）表示法，通过该表示法，分子被表示为具有预定义原子排序规则的简单字符序列。SMILES表示法特别适用于为语言处理开发的神经网络架构。然而，机器学习模型通常无法完全捕捉SMILES语法的潜在复杂性，并且容易产生无法转换为分子结构的无效SMILES。

而在基于图的分子表示中，节点和边分别对应于分子中的原子和键，基于图的表示能够更好地编码原子连接性。然而，图比序列更难以生成。Jin等人最近提出了一种新的分层图编码器-解码器 [2]。该模型在包括聚合物在内的各种分子生成任务中显示出更好的性能。

分子3D表示描述了原子连接性和分子构象空间。这对考虑一个分子的多个构象提出了挑战，这意味着在训练集中使用力场来最小化能量和生成构象。为了克服这一问题，最近的工作集中于在大型一致性集合上训练3D生成模型 [3]。

深度生成模型利用不同的架构，最广泛使用的是变分自编码器、生成对抗网络、强化学习等。在一篇开创性的论文[4]中，Gomez-Bombarelli等人使用了一种变分自编码器，它由一个能够将SMILES转换为潜在空间中连续向量的编码器、一个将这些向量转换回SMILES的解码器和一个分子属性预测器组成。然而，在许多情况下，该模型产生了SMILES解释无效的化学结构。

Zhavoronkov 等人 [5]使用生成性张量强化学习，将强化学习、变分推断、张量分解结合起来，作为奖励函数，对一组40个化合物进行优先排序，以合成和测试盘状结构域受体1（DDR1）激酶，确定了六个主要候选化合物。其中，化合物1和2强烈抑制DDR1活性。化合物1在小鼠体内也表现出良好的药效和药代动力学性质。值得注意的是，作者报告，鉴定阶段、合成和生物测试不到两个月。

药物设计过程需要平衡几个属性，例如靶向效力、溶解度、有限的离靶效应和合成可及性等。在这方面，生成模型已被用来解决以下方面的多参数或多目标优化：（i）与药物相似性相关的物理化学性质；和（ii）针对多种治疗靶点的活性。

Li等人 [6]应用基于图的条件生成模型来完成（在富集率和其他指标方面）合成可获得的药物样分子的设计，这些分子对c-Jun N-末端激酶3（JNK3）和糖原合成酶激酶-3β（GSK-3β）具有双重抑制活性。每个要优化的属性都可以使用单独的预测模型进行处理，然后可以在组合所有所需财产的目标函数上进行优化。

多约束分子采样方法利用了这一概念 [7]，输入分子被用作初始猜测，并使用基于马尔可夫链蒙特卡罗（MCMC）的采样方法从目标分布中获取分子样本，在对用于分子拓扑和子结构类型预测的图神经网络（GNN）进行预训练后，为每次迭代创建新的分子和相关权重。迭代的感兴趣分子的选择基于权重，权重可以编码各种约束（例如药物性质约束）。

Bung等人 [8] 提出了一种可解释的模型，用于设计能够到达中枢神经系统并调节5-HT1B受体的分子，该模型将通过迁移学习阶段获得的生成模型与通过强化学习偏向于感兴趣的属性空间的预测模型相结合。同时优化了四个参数，即对接分数、血脑屏障通透性（BBBP）、疏水性（LogP）和分子量。为了模型的 “解释性”，还绘制了有利于BBBP的分子的生成官能团。

♦ 基于药物-蛋白质复合物的分子生成

大多数生成模型都是以配体药物为中心的，在自由空间生成化合物，只有少数研究试图在靶结合位点产生化合物。

Ragoza等人 [9]开发了一个深度学习系统，该系统由在交叉对接蛋白质-配体结构的原子密度网格上训练的条件变分自编码器组成。生成的结构随后被用于在迭代和推断程序之后构建有效的分子构象。Wang等人提出了RELATION模型 [10]。

在该模型中，基于变分自编码器，首先提取蛋白质-配体复合物的几何特征，并将其转移到潜在空间进行生成。该模型包含两个主要组件，如图2所示：3D卷积编码器，包括专用编码器和共享编码器；以及基于LSTM的解码器，然后应用药效团调节和基于对接的贝叶斯采样来指导具有最佳构象和药效团特征的分子的生成。作者应用RELATION设计AKT1和CDK2抑制剂作为代表性靶标。RELATION有效地产生了具有良好结合亲和力和药效特征的新分子。

为了对生成模型性能进行严格评估，需要综合考虑各种指标来判断生成的分子的质量，例如有效性（具有正确键和价的有效化学结构）、唯一性（非冗余分子）和新颖性（生成的分子与训练集不同的数量）。

Walters等人 [11]为生成模型获得的分子提出了一些指导原则：（i）用于训练模型的分子应以计算机可读的形式提供，以快速判断生成的分子与训练集的相似性；（ii）应突出显示与每个生成的分子最相似的训练集分子；以及（iii）所要求的相同新颖性标准应适用于算法生成的分子和药物化学家生成的分子。

生成模型领域仍在发展，但发展速度非常快，有望帮助推进药物发现。未来，可以预见生成模型将与自动化平台集成，从而能够进行所提出分子的合成和实验评估。

图2 RELATION模型

♦ 总结

本文概述了应用于药物发现的最相关的机器学习方法，强调了最新的科学发展和示范应用。最引人注目的发展依赖于深度学习的应用来解决药物设计的问题，例如基于生成模型的药物分子设计，或研究蛋白质-配体结合过程。

这些研究对计算机辅助药物设计产生了相当大的影响，有助于该领域重新燃起热情。尽管如此，仍有一些挑战有待解决。

首先，生成性设计至少在目前不太可能自动生成最佳候选药物。事实上，药物效应的生物学复杂性受到许多因素的影响，这些因素通常无法先验预测，也难以以描述符的形式进行编码；因此，对于我们对生物系统的理解以及随后产生的适当数据，有必要进行改进，而人类专门知识的贡献将继续发挥关键作用。

另一个关键挑战涉及深度学习方法的验证，迫切需要理解和解释日益复杂的架构背后的模型。可解释的预测将为前瞻性药物设计提供有用的启示。同时，需要研究量化模型不确定性的方法。

事实上，尽管实现尽可能高的精度一直是主要关注点，但不确定性量化和不确定性下决策的重要性越来越受到重视。

最后，每个模型的核心是数据，数据的适用性对于有用和可靠的预测至关重要。以计算机可读形式表示药物发现信息的能力仍然是一个挑战。药物建模领域的重要贡献已经阐明了数据管理的重要性和适当模型验证的需求。

特别是，药物发现数据受到活性和非活性化合物之间极不平衡分布的影响。基于集成的方法，尤其是基于树的算法，通常在不平衡数据集上获得良好的性能，这是因为它们的分层性质允许它们从多个类中学习。

总之，这些挑战将促进人工智能辅助药物发现的最佳实践。未来，我们可以期待在这些举措上做出更多努力，这是人工智能方法实现数据价值最大化、加速创新和真正推进药物发现领域的必要步骤。

参考资料

[1] Cerchia et al. New avenues in artificial-intelligence-assisted drug discovery. Drug Discov Today. 2023

[2] Jin et al. Hierarchical Generation of Molecular Graphs using Structural Motifs. ICML. 2020

[3] Axelrod et al. GEOM: Energy-annotated molecular conformations for property prediction and molecular generation. Sci Data. 2022

[4] Gomez-Bombarelli et al. Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules. ACS Cent Sci. 2018

[5] Zhavoronkov et al. Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nat Biotechnol. 2019

[6] Li et al. Multi-objective de novo drug design with conditional graph generative model. J Cheminform. 2018

[7] Fu et al. MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization. AAAI. 2020

[8] Bung et al. An In Silico Explainable Multiparameter Optimization Approach for De Novo Drug Design against Proteins from the Central Nervous System. J Chem Inf Model. 2022

[9] Ragoza, et al. Generating 3D molecules conditional on receptor binding sites with deep generative models. Chem. Sci. 2022

[10] Wang, et al. RELATION: A Deep Generative Model for Structure-Based De Novo Drug Design. J. Med. Chem. 2022

[11] Walters et al. Assessing the impact of generative AI on medicinal chemistry. Nat Biotechnol. 2020