AI的魔力:重塑药物发现与开发的新途径

View :685

基于人工智能(Artificial intelligence,AI)的语言模型(Language models,LMs)可以预测词汇、理解语言,改变了自然语言处理(Natural language processing,NLP)领域。文本数据作为药物发现和开发过程的重要信息来源,将AI驱动的LMs转移到药物研发过程中,有助于科研人员更好地理解数据特征,提供了加速药物发现的可能性。

2021年,FDA/NCTR生物信息学和生物统计学部门主任Weida Tong和AI研究团队技术负责人Zhichao Liu作为共同通讯作者,联合团队中其他成员,在ELSEVIER旗下Drug Discovery Today杂志发表了综述性文章AI-based language models powering drug discovery and development

在文章中,作者介绍了AI驱动的LMs的研究进展和在药物发现和开发中的潜力(图1),强调了AI驱动下的LMs在靶点识别、临床试验监管决策和药物监测方面的机会。作者还介绍了AI动力下的LMs在治疗新冠感染中的潜在应用。

图1 药物发现和开发中的人工智能(AI)驱动语言模型

♦ AI语言翻译官

基于Transformer的LMs,其核心是通过自注意力机制(Self-attention)和位置编码(Positional encoding)进行序列到序列学习(Seq2Seq)。该语言模型的出现,改变了处理文本数据的方式,显示出了在信息检索、文本分类、文本总结和情感分析中的巨大潜力[1]

基于Transformer的LMs能够模拟人类的一些特征,如持续获取、微调和转移知识与技能(图2)。该模型可以提供一个迁移学习框架,将获取到的知识储存在一个预训练模型中,以供进一步模型训练;针对特定领域的知识或任务,可以对预训练的LMs加入一个微调层进行微调,创建最合适最先进的NLP模型;与人类相似的是 ,基于Transformer的LMs能够总结不同文档中所嵌入的知识,已经有证据表明该模型可以生成流畅连贯的句子段落,可以通过多文档摘要的方式创造整篇维基百科文章[2,3]。(注:2021年时,无论是GPT还是BERT都尚未像今天这样受人关注。)

图2 AI驱动的LMs与人类智能对比

AI的挑选秘籍:寻找合适的AI语言模型

基于Transformer的LMs的多样性,极大地增强了处理各种实际应用中非结构化文本的能力。然而,在生物医学应用背景下选择和重新定位基于Transformer的LMs非常具有挑战性,关键步骤是“定义目的”“管理数据的可用性”和“衡量可扩展性”。

AI驱动的LMs在药物发现和开发的各个阶段都具有潜力,但公司和研发者在不同的阶段和不同的角度下,需求不尽相同。所以在寻求合适的AI解决方案之前,定义目的至关重要。

训练基于AI的LMs需要大量的文本。除公开的预训练的LMs使用一般的知识训练外,一些特定领域的LMs,如生物医学领域的BioBERT[14]和ClinicalBERT[4],通过使用公开可用的生物医学文献或去标识的电子健康记录(Electronic Health Records,EHRs)来增强临床应用。然而,在模型训练过程中,仍然需要大量的有标注的数据;而且,在药物发现和开发过程中产生的数据对公司来说可能是敏感的,所以在选择合适的LM之前,明确了解数据可用性和策划标注数据所需的工作量非常重要。

基于Transformer的LMs性能提升源于数据和模型规模的增加、计算能力或训练过程的提高。当AI驱动的LMs用于患者监测时,为了满足实时数据收集和分析的需求,得到更快的推理速度是模型训练过程中最重要的目标;如果AI驱动的LMs旨在从临床记录中识别潜在的不良事件,那么更强的计算能力是模型训练中的首要目的;针对复杂的药物发现和开发任务(如患者招募),将多个模型应用于任务中,采用共识的方法更有可能改善病人的匹配情况。

♦ AI探药:语言模型在药物发现中的应用

AI在药物发现和开发中具有巨大潜力。在本文中,作者还介绍了AI驱动的LMs在靶点发现、临床试验,监管决策和上市后监测这4个阶段的潜在机会。

靶点发现是药物发现过程中关键的步骤之一,使用AI驱动的LMs可以推进药物发现进程,加速靶点的识别。首先,使用自动生物医学命名实体识别(BioNER)——一种在大型生物医学语料库上预训练的LM,可以发现隐藏在自由文本文档中的化学物质、基因、靶点和疾病之间的关系[5];其次,应用AI动力下的LMs,可以从生物医学文献中总结关键信息,推进靶点识别;第三,将简化分子输入线性系统(SMILES)应用到基于Transformer的LMs中,如SMILES Transformer,可以将化学分子的SIMILES形式关联到不同物理化学特征、治疗性靶点和毒性预测信息;最后,AI驱动的LMs具有评估未满足的医疗需求并为高通量筛选(High-throughput screening,HTS)提供优先级靶点的潜力。

在新药研发过程中,临床试验成本高、耗时长、失败率高,一部分原因在于患者群选择不理想、无效的患者招募策略和不成熟的患者监测系统[6,7]。各种基于文本的数据集,包括电子健康记录 (EHR) 、临床试验数据库、试验公告、资格数据库、社交媒体和医学文献,为AI驱动的LM提供了一个独特而直接的入口,以改善临床试验结果[8]。AI驱动的LMs,可以通过学习医学术语及其同义词、与其他新兴技术结合,将招募标准综合成标准化的上下文查询,改善临床试验匹配过程,实现患者招募过程的自动化,减轻人工工作量。数字健康技术,如可穿戴设备、语音技术和计算机视觉,使远程患者监测成为可能[9]。AI和机器学习(特别是深度学习模型)可以用于实时患者监测,检测和记录相关信息[10,11]

按规定,制药公司需给卫生监管机构发送合规证据档案。相关的医务人员不仅要审查提交的文件,还要考虑到历史数据和相关文件,以产生证据并支持决策,这是一个复杂而耗时的过程。AI驱动的LMs可以促进监管文件的编码,以便更有效地审查、传递和调用信息。除此之外,将AI应用于语义搜索引擎,还可以提高信息检索的有效性,为审查员提取最相关的资料[12]

上市后监测是药物警戒科学的重要组成部分,其监测数据主要来自:1)自愿报告的病例或科学文献;2)观察性研究;3)主动监测。AI 动力下的语言模型已被证明对改进药品 - 不良事件关联性检测和解析不良事件(Adverse event,AE)与临床参数之间的因果关系非常有用[13,14]

♦ AI驱动模型新冠研究

值得一提的是,在新冠研究领域AI也有“用武之地”。新冠大流行期间,研究人员发表了大量相关文献,但同时也带来了检索、阅读困难的新问题,学者难以靠人力去阅读所有文献。

AI驱动的搜索引擎的出现,可帮助研究人员浏览文献以解决对应的问题[15]。截至目前,已开发和使用了有50多个搜索和发现工具,用于各种类型分析,如药物再利用、与其他疾病的相互作用感染、不同人口群体的死亡率和管理政策等[16]。将基于AI的LMs用于新冠感染的治疗药物中,不仅可以提取候选药物与不良反应事件之间的关系,还可以提取候选药物与其他预防药物之间的潜在的相互作用(DDls)[17]

图3 加速新型冠状病毒(COVID-19)治疗开发的人工智能(AI)驱动语言模型

总之,人工智能语言模型已被广泛应用于生物医学科学的许多领域。该论文总结了AI驱动的LMs面临的机遇和挑战,以激发业界的努力,进行进一步的评估,并在药物发现和开发中更好地定位和促进AI驱动的LMs。

原文链接:https://www.sciencedirect.com/science/article/pii/S1359644621002816

本文作者:于洁

审校:张程

参考文献:

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 6000–6010.

[2] Parisi G I, Kemker R, Part J L, et al. Continual lifelong learning with neural networks: A review[J]. Neural Networks, 2019, 113: 54-71.

[3] Liu P J, Saleh M, Pot E, et al. Generating Wikipedia by Summarizing Long Sequences[J], 2018, abs/1801.10198.

[4] Huang K, Altosaar J, Ranganath R J A. ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission[J], 2019, abs/1904.05342.

[5] Giorgi J M, Bader G D. Towards reliable named entity recognition in the biomedical domain[J]. Bioinformatics, 2019, 36(1): 280-286.

[6] Scannell J W, Blanckley A, Boldon H, et al. Diagnosing the decline in pharmaceutical R&D efficiency[J]. Nature Reviews Drug Discovery, 2012, 11(3): 191-200.

[7] Fogel D B. Factors associated with clinical trials that fail and opportunities for improving the likelihood of success: A review[J]. Contemporary Clinical Trials Communications, 2018, 11: 156-164.

[8] Harrer S, Shah P, Antony B, et al. Artificial Intelligence for Clinical Trial Design[J]. Trends in Pharmacological Sciences, 2019, 40(8): 577-591.

[9] Steinhubl S R, Wolff-Hughes D L, Nilsen W, et al. Digital clinical trials: creating a vision for the future[J]. npj Digital Medicine, 2019, 2(1): 126.

[10] Liu Y, Chen P C, Krause J, et al. How to Read Articles That Use Machine Learning: Users' Guides to the Medical Literature[J]. Jama, 2019, 322(18): 1806-1816.

[11] Sim I. Mobile Devices and Health[J], 2019, 381(10): 956-968.

[12] Fiorini N, Leaman R, Lipman D J, et al. How user intelligence is improving PubMed[J]. Nature Biotechnology, 2018, 36(10): 937-945.

[13] Fan B, Fan W, Smith C, et al. Adverse drug event detection and extraction from open data: A deep learning approach[J]. Information Processing & Management, 2020, 57(1): 102131.

[14] Biseda B, Mo K. Enhancing Pharmacovigilance with Drug Reviews and Social Media[M].  2020.

[15] Tang W, Cao Z, Han M, et al. Hydroxychloroquine in patients with mainly mild to moderate coronavirus disease 2019: open label, randomised controlled trial[J], 2020, 369: m1849.

[16] Brainard J. New tools aim to tame pandemic paper tsunami[J], 2020, 368(6494): 924-925.

[17] Zhang T, Leng J, Liu Y. Deep learning for drug-drug interaction extraction from the literature: a review[J]. Brief Bioinform, 2020, 21(5): 1609-1627.

基于人工智能(Artificial intelligence,AI)的语言模型(Language models,LMs)可以预测词汇、理解语言,改变了自然语言处理(Natural language processing,NLP)领域。文本数据作为药物发现和开发过程的重要信息来源,将AI驱动的LMs转移到药物研发过程中,有助于科研人员更好地理解数据特征,提供了加速药物发现的可能性。

2021年,FDA/NCTR生物信息学和生物统计学部门主任Weida Tong和AI研究团队技术负责人Zhichao Liu作为共同通讯作者,联合团队中其他成员,在ELSEVIER旗下Drug Discovery Today杂志发表了综述性文章AI-based language models powering drug discovery and development

在文章中,作者介绍了AI驱动的LMs的研究进展和在药物发现和开发中的潜力(图1),强调了AI驱动下的LMs在靶点识别、临床试验监管决策和药物监测方面的机会。作者还介绍了AI动力下的LMs在治疗新冠感染中的潜在应用。

图1 药物发现和开发中的人工智能(AI)驱动语言模型

♦ AI语言翻译官

基于Transformer的LMs,其核心是通过自注意力机制(Self-attention)和位置编码(Positional encoding)进行序列到序列学习(Seq2Seq)。该语言模型的出现,改变了处理文本数据的方式,显示出了在信息检索、文本分类、文本总结和情感分析中的巨大潜力[1]

基于Transformer的LMs能够模拟人类的一些特征,如持续获取、微调和转移知识与技能(图2)。该模型可以提供一个迁移学习框架,将获取到的知识储存在一个预训练模型中,以供进一步模型训练;针对特定领域的知识或任务,可以对预训练的LMs加入一个微调层进行微调,创建最合适最先进的NLP模型;与人类相似的是 ,基于Transformer的LMs能够总结不同文档中所嵌入的知识,已经有证据表明该模型可以生成流畅连贯的句子段落,可以通过多文档摘要的方式创造整篇维基百科文章[2,3]。(注:2021年时,无论是GPT还是BERT都尚未像今天这样受人关注。)

图2 AI驱动的LMs与人类智能对比

AI的挑选秘籍:寻找合适的AI语言模型

基于Transformer的LMs的多样性,极大地增强了处理各种实际应用中非结构化文本的能力。然而,在生物医学应用背景下选择和重新定位基于Transformer的LMs非常具有挑战性,关键步骤是“定义目的”“管理数据的可用性”和“衡量可扩展性”。

AI驱动的LMs在药物发现和开发的各个阶段都具有潜力,但公司和研发者在不同的阶段和不同的角度下,需求不尽相同。所以在寻求合适的AI解决方案之前,定义目的至关重要。

训练基于AI的LMs需要大量的文本。除公开的预训练的LMs使用一般的知识训练外,一些特定领域的LMs,如生物医学领域的BioBERT[14]和ClinicalBERT[4],通过使用公开可用的生物医学文献或去标识的电子健康记录(Electronic Health Records,EHRs)来增强临床应用。然而,在模型训练过程中,仍然需要大量的有标注的数据;而且,在药物发现和开发过程中产生的数据对公司来说可能是敏感的,所以在选择合适的LM之前,明确了解数据可用性和策划标注数据所需的工作量非常重要。

基于Transformer的LMs性能提升源于数据和模型规模的增加、计算能力或训练过程的提高。当AI驱动的LMs用于患者监测时,为了满足实时数据收集和分析的需求,得到更快的推理速度是模型训练过程中最重要的目标;如果AI驱动的LMs旨在从临床记录中识别潜在的不良事件,那么更强的计算能力是模型训练中的首要目的;针对复杂的药物发现和开发任务(如患者招募),将多个模型应用于任务中,采用共识的方法更有可能改善病人的匹配情况。

♦ AI探药:语言模型在药物发现中的应用

AI在药物发现和开发中具有巨大潜力。在本文中,作者还介绍了AI驱动的LMs在靶点发现、临床试验,监管决策和上市后监测这4个阶段的潜在机会。

靶点发现是药物发现过程中关键的步骤之一,使用AI驱动的LMs可以推进药物发现进程,加速靶点的识别。首先,使用自动生物医学命名实体识别(BioNER)——一种在大型生物医学语料库上预训练的LM,可以发现隐藏在自由文本文档中的化学物质、基因、靶点和疾病之间的关系[5];其次,应用AI动力下的LMs,可以从生物医学文献中总结关键信息,推进靶点识别;第三,将简化分子输入线性系统(SMILES)应用到基于Transformer的LMs中,如SMILES Transformer,可以将化学分子的SIMILES形式关联到不同物理化学特征、治疗性靶点和毒性预测信息;最后,AI驱动的LMs具有评估未满足的医疗需求并为高通量筛选(High-throughput screening,HTS)提供优先级靶点的潜力。

在新药研发过程中,临床试验成本高、耗时长、失败率高,一部分原因在于患者群选择不理想、无效的患者招募策略和不成熟的患者监测系统[6,7]。各种基于文本的数据集,包括电子健康记录 (EHR) 、临床试验数据库、试验公告、资格数据库、社交媒体和医学文献,为AI驱动的LM提供了一个独特而直接的入口,以改善临床试验结果[8]。AI驱动的LMs,可以通过学习医学术语及其同义词、与其他新兴技术结合,将招募标准综合成标准化的上下文查询,改善临床试验匹配过程,实现患者招募过程的自动化,减轻人工工作量。数字健康技术,如可穿戴设备、语音技术和计算机视觉,使远程患者监测成为可能[9]。AI和机器学习(特别是深度学习模型)可以用于实时患者监测,检测和记录相关信息[10,11]

按规定,制药公司需给卫生监管机构发送合规证据档案。相关的医务人员不仅要审查提交的文件,还要考虑到历史数据和相关文件,以产生证据并支持决策,这是一个复杂而耗时的过程。AI驱动的LMs可以促进监管文件的编码,以便更有效地审查、传递和调用信息。除此之外,将AI应用于语义搜索引擎,还可以提高信息检索的有效性,为审查员提取最相关的资料[12]

上市后监测是药物警戒科学的重要组成部分,其监测数据主要来自:1)自愿报告的病例或科学文献;2)观察性研究;3)主动监测。AI 动力下的语言模型已被证明对改进药品 - 不良事件关联性检测和解析不良事件(Adverse event,AE)与临床参数之间的因果关系非常有用[13,14]

♦ AI驱动模型新冠研究

值得一提的是,在新冠研究领域AI也有“用武之地”。新冠大流行期间,研究人员发表了大量相关文献,但同时也带来了检索、阅读困难的新问题,学者难以靠人力去阅读所有文献。

AI驱动的搜索引擎的出现,可帮助研究人员浏览文献以解决对应的问题[15]。截至目前,已开发和使用了有50多个搜索和发现工具,用于各种类型分析,如药物再利用、与其他疾病的相互作用感染、不同人口群体的死亡率和管理政策等[16]。将基于AI的LMs用于新冠感染的治疗药物中,不仅可以提取候选药物与不良反应事件之间的关系,还可以提取候选药物与其他预防药物之间的潜在的相互作用(DDls)[17]

图3 加速新型冠状病毒(COVID-19)治疗开发的人工智能(AI)驱动语言模型

总之,人工智能语言模型已被广泛应用于生物医学科学的许多领域。该论文总结了AI驱动的LMs面临的机遇和挑战,以激发业界的努力,进行进一步的评估,并在药物发现和开发中更好地定位和促进AI驱动的LMs。

原文链接:https://www.sciencedirect.com/science/article/pii/S1359644621002816

本文作者:于洁

审校:张程

参考文献:

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 6000–6010.

[2] Parisi G I, Kemker R, Part J L, et al. Continual lifelong learning with neural networks: A review[J]. Neural Networks, 2019, 113: 54-71.

[3] Liu P J, Saleh M, Pot E, et al. Generating Wikipedia by Summarizing Long Sequences[J], 2018, abs/1801.10198.

[4] Huang K, Altosaar J, Ranganath R J A. ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission[J], 2019, abs/1904.05342.

[5] Giorgi J M, Bader G D. Towards reliable named entity recognition in the biomedical domain[J]. Bioinformatics, 2019, 36(1): 280-286.

[6] Scannell J W, Blanckley A, Boldon H, et al. Diagnosing the decline in pharmaceutical R&D efficiency[J]. Nature Reviews Drug Discovery, 2012, 11(3): 191-200.

[7] Fogel D B. Factors associated with clinical trials that fail and opportunities for improving the likelihood of success: A review[J]. Contemporary Clinical Trials Communications, 2018, 11: 156-164.

[8] Harrer S, Shah P, Antony B, et al. Artificial Intelligence for Clinical Trial Design[J]. Trends in Pharmacological Sciences, 2019, 40(8): 577-591.

[9] Steinhubl S R, Wolff-Hughes D L, Nilsen W, et al. Digital clinical trials: creating a vision for the future[J]. npj Digital Medicine, 2019, 2(1): 126.

[10] Liu Y, Chen P C, Krause J, et al. How to Read Articles That Use Machine Learning: Users' Guides to the Medical Literature[J]. Jama, 2019, 322(18): 1806-1816.

[11] Sim I. Mobile Devices and Health[J], 2019, 381(10): 956-968.

[12] Fiorini N, Leaman R, Lipman D J, et al. How user intelligence is improving PubMed[J]. Nature Biotechnology, 2018, 36(10): 937-945.

[13] Fan B, Fan W, Smith C, et al. Adverse drug event detection and extraction from open data: A deep learning approach[J]. Information Processing & Management, 2020, 57(1): 102131.

[14] Biseda B, Mo K. Enhancing Pharmacovigilance with Drug Reviews and Social Media[M].  2020.

[15] Tang W, Cao Z, Han M, et al. Hydroxychloroquine in patients with mainly mild to moderate coronavirus disease 2019: open label, randomised controlled trial[J], 2020, 369: m1849.

[16] Brainard J. New tools aim to tame pandemic paper tsunami[J], 2020, 368(6494): 924-925.

[17] Zhang T, Leng J, Liu Y. Deep learning for drug-drug interaction extraction from the literature: a review[J]. Brief Bioinform, 2020, 21(5): 1609-1627.

问询(英文)
Online enquiries

公众号