ChatGTP给生命健康带来什么样的启示？

自2022年11月问世以来，ChatGPT就迅速蹿红为AI界的红 “人”。从日常聊天，到专业问题，从续写红楼梦，到辅助编辑论文，这一聊天机器人把人工智能技术发挥到了极致。

ChatGPT能在海量的话题中实现复杂的交互，离不开依托海量文本大数据的智能模型训练。实际上，作为一个用大量数据训练出来的语言模型，ChatGPT的核心还是数据，在大量数据和场景中不断优化更迭，这得益于OpenAI多年来在AI预训练大模型领域的积累。不仅如此，在OpenAI开发中的最新大型语言模型GPT-4中，据预测将包含约100万亿的参数，与人脑突触在同一数量级。

正如此前的AlphaFold2一般，ChatGPT在生物医药领域的应用前景也受到广泛关注。不少学者认为，ChatGPT在生物产业也大有可为：可用于解读基因组DNA序列、可更快速有效地处理海量的基因组序列信息、可助力人工设计全新的蛋白质，等等。

大数据+大算力+强算法=大模型，这一人工智能大模型领域的法则在生命科学领域同样大有可为：例如，在AI制药领域，大数据训练下产生的AI模型可用于靶点选择、虚拟筛选、性能测试等。在蛋白质组学领域，通过新冠患者血液中的蛋白质组和代谢组分析，所建立的机器学习模型可用于判断轻重症，等等。

相比在生命科学领域的应用，ChatGPT背后的科学逻辑更具有启发性，而这也正是西湖欧米一直在做的：将新一代临床蛋白质组学、大数据和人工智能相结合，基于先进的人工智能技术，针对多组学生命和健康大数据的特点，构建新的数据分析方法，用以挖掘模型和目标验证算法，助力精准医学和药物研发。

—— 欧米锐评人懒羊羊

近期ChatGPT可谓火遍全网。上周，微软（Microsoft）公司表示，将把ChatGPT整合到搜索引擎Bing和网络浏览器中，谷歌（Google）公司也在今日展示了其名为Bard的人工智能对话系统。

这些系统可以根据用户提供的复杂问题，提供全面而综合的回答，小到制定详细的旅行计划，大到分析公司的运营策略。在生物医药领域，ChatGPT的应用前景也受到广泛关注。本文将展望这一新兴AI模式在生物产业中的应用。

来源 | 药明康德公众号

♦ 科学探索的得力助手

如今，科学研究的发展日新月异，每天有成百上千篇科学论文发布，如何跟上科学研究的步伐是科研人员需要面对的挑战。基于ChatGPT的人工智能系统，微软公司已经开发了一款称为BioGPT的人工智能系统，它接受过科学文献网站PubMed上超过1500万篇摘要的训练，可以根据用户的提问迅速提供相关的答案。在PubMedQA检测中，这款人工智能模型达到81.0%的准确性。

图源[8]

微软公司在介绍整合ChatGPT的浏览器时表示，这一系统能够在阅读冗长财报时，打开一个新窗口，让用户通过提问，提炼文章的要点，并且与其它财报进行比较。

应用在科学文献整理上，这一系统有望改变我们未来查询和阅读论文的模式。人工智能系统不但能够帮我们找到文献，还能 “一键划重点”，并且与其它文献进行比较，大幅度提高从科学文献中获得信息的速度。

♦ 发掘科学洞见

ChatGPT背后的大型语言模型利用对海量人类语言数据的分析，学习人类语言的语法和其它特征。这一学习方式也可以用于解读基因组DNA序列。

科技公司Nvidia在今年的JP摩根医疗健康大会上指出，随着新一代基因组测序速度的不断加快和成本的不断降低，目前我们测序基因组DNA的能力已经超越了分析DNA序列并从中获取洞见的能力。

而更快速有效地处理海量的基因组序列信息离不开人工智能。大型语言模型通过像分析人类语言一样分析DNA序列，可以加快基因组的拼接、基因突变的发现，并且用人类对话的方式将发现表述给研究人员。

比如，整合ChatGPT的基因测序分析系统可能在处理患者的基因组测序数据后给出 “这名患者的X基因上的突变可能导致罕见遗传病Y” 的总结，支持临床医生做出更快决策。

大型语言模型和生成式人工智能对基因组学至关重要图源：Nvidia官网

♦ 助力科学突破

基于大型语言模型的人工智能系统已经被用于学习蛋白质中氨基酸顺序与蛋白结构和功能之间的关系，助力人工设计全新的蛋白质。

日前在 Nature Biotechnology 上发表的一篇论文中，研究人员使用基于大型语言模型设计的ProGen系统，设计出具有和自然溶菌酶活力相似的全新溶菌酶。他们表示，这一新技术可能比获得诺贝尔奖的定向进化（directed evolution）蛋白设计技术更有威力，给蛋白工程学领域注入新的活力。

ProGen等AI系统能够从头设计具有特定功能的全新蛋白图源[13]

♦ 提高科学论文和医学报告写作效率

近日在Nature 和The Lancet Digital Health 上发表的文章指出，ChatGPT未来的一项重要应用，是将科学家和医生从一些重复性劳动中解脱出来，更好地聚焦于科学研究和治疗患者。

比如，很多研究人员已经在使用ChatGPT来帮助写作科学论文的背景材料部分，或者用它来辅助对论文的编辑。在医院的环境里，ChatGPT有可能替代医生撰写出院总结等具有标准格式的报告。

♦ 哪些挑战需要克服？

虽然ChatGPT在生物医药领域具有广阔的应用前景，但是业界人士也指出这一系统目前存在的一些隐患。比如，目前大型语言系统的一个缺陷在于提供信息的真实度有待提高。

由于ChatGPT基于对已有语言数据的学习提供回答，它的回答也受到数据库中不真实、有偏见、或者过时知识的影响。这意味着对于专业性强的话题，如果大型语言系统没有经过足够专业数据的训练，很可能提供错误的回答。具有足够专业知识的研究人员仍然能发现并且纠正这些问题，但是没有专业知识的用户就很容易被误导。

此外，训练ChatGPT的语言数据中也包含了人类的历史偏见，包括种族、性别、文化、年龄歧视等不良因素。由于这些历史偏见广泛存在于语言数据库中，很难人工剔除，如何防止ChatGPT根据这些数据输出有害言论是需要解决的另一个挑战。

有些研究人员指出，建立使用ChatGPT的规范和法规至关重要，以确保这一技术被正当、透明和公平的使用。比如，Nature 等多家学术杂志已经发表声明，指出递交待发表的学术论文时，需要明确指出ChatGPT等大型语言模型的使用。

日前，斯克里普斯研究所的著名学者Eric Topol博士在展望人工智能应用的未来时表示，包括大型语言模型在内的AI系统未来不但有望帮助诊断癌症，而且通过将人体扫描图像中的特征与学术文献中的文字联系起来，可以增强对疾病的理解。他同时强调这些努力应该在专家的监督下进行。

ChatGPT等生成式AI的进展日新月异，研究人员选择如何使用它们将决定我们的未来。“2023年只是开始！” Topol博士说。

参考资料：

[1] What ChatGPT and generative AI mean for science. Retrieved February 8, 2023, from https://www.nature.com/articles/d41586-023-00340-6#correction-0

[2] Patel and Lam, (2023) ChatGPT: the future of discharge summaries? The Lancet Digital Health, https://doi.org/10.1016/S2589-7500(23)00021-3

[3] Liebrenz et al., (2023) Generating scholarly content with ChatGPT: ethical challenges for medical publishing. The Lancet Digital Health, https://doi.org/10.1016/S2589-7500(23)00019-5

[4] Microsoft announces new Bing and Edge browser powered by upgraded ChatGPT AI. Retrieved February 8, 2023, from https://www.theverge.com/2023/2/7/23587454/microsoft-bing-edge-chatgpt-ai

[5] Promises — and pitfalls — of ChatGPT-assisted medicine. Retrieved February 8, 2023, from https://www.statnews.com/2023/02/01/promises-pitfalls-chatgpt-assisted-medicine/

[6] Luo et al., (2023). BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining. arXiv, https://arxiv.org/pdf/2210.10341.pdf

[7] NLP Leader Huma.AI Launches Industry's First Generative AI Platform for Life Sciences. Retrieved February 8, 2023, fromhttps://finance.yahoo.com/news/nlp-leader-huma-ai-launches-150000545.html?guccounter=1

[8] Microsoft Launches BioGPT, the ChatGPT of Lifescience. Retrieved February 8, 2023, from https://analyticsindiamag.com/microsoft-launches-biogpt-the-chatgpt-of-lifescience/

[9] An important next step on our AI journey. Retrieved February 8, 2023, from https://blog.google/technology/ai/bard-google-ai-search-updates/

[10] NVIDIA Highlights AI, Large Language Model Advances in Life Sciences. Retrieved January 27, 2023, from https://www.bio-itworld.com/news/2023/01/20/nvidia-highlights-ai-large-language-model-advances-in-life-sciences

[11] Reinventing search with a new AI-powered Microsoft Bing and Edge, your copilot for the web. Retrieved February 8, 2023, from https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

[12] Using ChatGPT in bioinformatics and biomedical research. Retrieved February 8, 2023, from https://omicstutorials.com/using-chatgpt-in-bioinformatics-and-biomedical-research/

[13] Profluent debuts to design proteins with machine learning in bid to move past 'AI sprinkled on top'. Retrieved January 27, 2023, from https://endpts.com/exclusive-profluent-debuts-to-design-proteins-with-machine-learning-in-bid-to-move-past-ai-sprinkled-on-top/