Nat Mach Intell|MassFormer:利用图形转换器进行小分子串联质谱预测

阅读量 :650

串联质谱(Tandem mass spectra)可捕获分子的碎片模式并提供关于分子结构的关键信息。尽管质谱技术应用于许多领域,但绝大多数小分子缺乏实验参考谱。现有的深度学习方法无法利用分子中的全局结构,这可能导致在推广到新数据时出现困难。

4月5日,多伦多大学计算机科学系的Wang Bo团队在 Nature Machine Intelligence(IF:23.8)发表了新的文章 Tandem mass spectrum prediction for small molecules using graph transformers

图1 论文截图


文章介绍了一种名为MassFormer的新型方法,利用图形转换器架构预测小分子的串联质谱,通过实验和分析证明了其在质谱预测和化合物识别任务中的优越性能。

MassFormer方法概述

MassFormer采用了图形转换架构(graph transformer architecture)来预测输入分子的光谱,其工作流程包括分子图的预处理、图形转换器的应用、光谱元数据的结合以及使用MLP(multilayer perceptrons,多层感知机)进行预测。通过图转换器,模型能够全局捕获分子中原子之间的关系,进而进行准确的质谱预测。

图2 MassFormer方法概述


结果1:
对未知化合物的质谱预测

为了评估模型的泛化性能,研究人员比较了MassFormer与其他两种深度学习方法——基于分子指纹(fingerprint,FP)的神经网络模型和威斯费勒-莱曼(Weisfeiler–Lehman,WLN)图神经网络模型,以及CFM(competitive fragmentation modelling)在不同数据集和分割策略下的性能。

结果显示,MassFormer在不同数据集和分割策略下均表现出色,对未见化合物的质谱预测性能优于其他方法。


结果2:
模拟碰撞能量的影响

碰撞能量(collision energy)是影响观察到的光谱的重要参数之一,研究人员通过模拟不同碰撞能量下的光谱变化来验证模型对碰撞能量的建模效果。

图3a展示了碰撞能量通常如何影响碎裂,四个谱图(以及相关的谱图预测)对应于相同的分子在不同的归一化碰撞能量下的情况。随着碰撞能量的增加,真实质谱中的峰强度向左移动,模型的预测密切地跟随着这一模式。

结果显示,模型能够准确地跟随碰撞能量变化,预测出对应的谱图特征。

图3 碰撞能量实验 增加碰撞能量会影响质谱

结果3:
使用基于梯度的归因解释峰值预测

研究人员指出,尽管深度学习模型通常被视为黑匣子(black boxes),但基于梯度的归因方法可以部分理解模型行为。这些方法通过计算模型输出相对于输入特征的梯度,来确定模型对数据哪些部分最敏感。文章中介绍了Gradient × Input(GI)归因方法,该方法通过计算输入向量与其梯度之间的点积来衡量特征变化对模型输出的影响。

研究人员使用GI归因方法表明,MassFormer能够基于杂原子组成区分峰值,并通过示例和数据展示了MassFormer如何利用基于梯度的归因方法来揭示质谱中预测峰值之间的组成关系。

结果4:
通过排名候选物质来识别谱图

研究人员使用了CASMI竞赛作为基准数据集,并将MassFormer与三个基线模型(FP、WLN、CFM)进行比较。比较结果显示,深度学习模型在各项指标上通常优于CFM,而MassFormer通常优于其他方法。

然而,CASMI 2016 Contest作为基准数据集具有一些局限性,因此研究人员还在CASMI 2022 Contest和NIST20 Outlier上评估了模型性能,结果显示MassFormer在几乎所有实验和指标上都优于其他模型。

最后,研究人员指出谱图预测的提升并不总是能够转化为谱图识别的改进,因为谱图识别需要预测大量候选结构,其中许多与训练集的分布不一致,这是一个更难估计的问题。


总 结

总的来说,该研究提出了一种基于图形转换架构的质谱预测方法,通过对该方法进行广泛的基准测试,展示了其在MS/MS数据上的有效性,并且在文献中实现了其他模型的实现。

这项工作也存在一些局限性,包括模型适用性受限于特定的正离子模式下的静电场轨道阱(Orbitrap)质谱、分辨率不足以及模型无法提供真实峰注释等。

最后,研究人员还探讨了MassFormer的潜在应用,主要集中在基于质谱的化合物鉴定方面,包括与现有工具结合以提高结构识别性能、用于目标代谢组学分析以及在伪发现率校准中进行诱饵数据库生成等方面的应用。


文章链接:
https://www.nature.com/articles/s42256-024-00816-8

 

问询(中文)

公众号